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内 容 简介 


深度 学 习 为 人 工 智能 带 来 了 巨大 突破 ， 也 成 为 机 器 学 习 领 域 一 颗 闪耀 的 新 星 。 虽 然 相关 学 习 资 料 丰富 ， 但 大 
部 分 内 容 较为 庞杂 且 难 以 理解 ， 并 对 初学 者 的 相关 理论 知识 与 实践 能 力 有 较 高 的 要 求 ， 这 使 得 大 部 分 想 进 入 这 一 领 
域 的 初学 者 望而却步 。 本 书 去 繁 化 简 地 对 深度 学 习 的 理论 知识 进行 了 梳理 ， 并 对 算法 实现 做 出 了 浅显 易 懂 的 讲解 ， 
适合 初学 者 进行 学 习 。 结 合 本 书 的 内 容 ， 读 者 可 以 快速 对 深度 学 习 进行 实践 。 通 过 启发 式 的 自学 模式 ， 可 以 使 读者 
由 浅 入 深 地 学 习 并 掌握 常用 的 深度 学 习 模 型 ， 为 进一步 使 用 开源 的 深度 学 习 平台 与 工具 提供 理论 与 实践 基础 。 

本 书 可 作为 高 等 院 校 计算 机 专业 的 本 科 生 或 研究 生 教材 ， 也 可 供 对 深度 学 习 感 兴趣 的 研究 人 员 和 工程 技术 人 
员 阅 读 参考 。 
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随 着 谷歌 的 AlphaGo, IBM 的 watson 以 及 百度 的 智能 机 器 人 百 小 度 的 问世 ， 人 工 智能 成 
为 了 大 众 热烈 讨论 的 焦点 ， 而 作为 这 些 智 能 产品 的 核心 技术 ， 深 度 学 习 受 到 了 学 界 与 产业 界 
的 广泛 关注 。 深 度 学 习 凭借 其 优良 的 性 能 ， 被 广泛 应 用 于 计算 机 视觉 、 图 像 分 析 、 语 音 识 别 
和 自然 语言 处 理 等 诸多 领域 中 。 但 深度 学 习 的 算法 与 模型 较为 复杂 ， 对 于 初学 者 来 说 较 难 理 
解 与 掌握 ， 需 要 其 有 一 定 的 理论 与 实践 应 用 基础 。 本 书 作 者 通过 把 理论 知识 与 大 量 实践 例子 
相 结 合 ， 运 用 易 懂 与 底 谐 的 语言 为 初学 者 呈现 了 一 部 指导 深度 学 习 实 战 的 首选 之 作 。 本 书 的 
面向 对 象 为 计算 机 及 相关 专业 的 本 科 生 、 研 究 生 ， 以 及 相关 领域 的 初级 研究 人 员 。 与 同类 车 
作 不 同 的 是 本 书 更 强调 读者 的 亲身 实践 ， 分 为 模块 设计 与 代码 实践 两 部 分 ， 当 读者 学 习 完 模 
块 设计 部 分 的 理论 知识 后 ， 还 可 以 在 实践 代码 的 关键 位 置 添加 自己 的 代码 ， 并 测试 实现 的 深 
度 学 习 模 型 的 每 一 个 关键 环节 ， 以 此 进一步 理解 与 掌握 所 学 的 算法 与 模型 。 





本 书 共 分 为 8 章 ， 第 1 章 为 深度 学 习 的 发 展 介绍 ， 其 他 7 章 对 深度 学 习 的 理论 知识 和 应 
用 进行 了 深入 浅 出 的 讲解 ， 分 别 为 第 2 3€ 机 器 学 习 快速 入 门 ， 第 3 章 前 馈 神 经 网 络 ， 第 4 
章 深度 学 习 正则 化 ,第 5 章 深度 学 习 优 化 , 第 6 章 卷 积 神经 网 络 , 第 7 章 循环 神经 网 络 ， 
第 8 章 TensorFlow 快速 入 门 。 每 一 个 章节 在 其 结尾 部 分 都 会 提出 深度 学 习 算法 与 模型 的 实践 
学 习 ， 按 照 作者 的 设计 步骤， 读者 可 以 逐步 完成 代码 的 编写 ， 并 对 其 进行 测试 ， 最 终 完 成 整 
个 算法 与 模型 代码 的 实践 。 本 书 不 同 于 传统 理论 介绍 + 代码 演示 书籍 之 处 在 于 ,理论 知识 与 实 
践 学 习 部 分 可 以 分 开 阅 读 ， 其 每 一 章节 的 实践 学 习 部 分 更 加 强调 与 读者 的 互动 性 。 本 书 还 精 
心 设计 了 许多 子 模块 ， 给 予 大 量 的 编程 提示 ， 并 引导 读者 通过 自学 的 方式 完成 各 个 子 模 块 的 
实现 ， 进 而 强化 读者 对 不 同 模块 编码 实现 的 学 习 与 理解 ， 在 每 章 末 尾 都 会 给 出 相应 的 参考 代 
码 。 
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本 书 免 费 提 供 了 云 盘 下 载 文件 ， 内 容 包 括 书 中 所 有 综合 案例 的 素材 文件 ， 下 载 地 址 为 : 
https://pan.baidu.com/s/InvacrYL (注意 区 分 英文 字母 大 小 写 ) ， 如 果 下 载 有 问题 ， 请 发 
送 电子 邮件 至 booksaga@126.com， 邮 件 主题 设置 为 “深度 学 习 实 战 ”。 
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一 日 清晨 ， 朝 阳 未 热 ， 少 年 小 飞 未 醒 ， 接 到 了 一 个 陌生 的 电话 ， 电 话 中 念 到 “双眸 剪 秋 
水 ， 一 手 弹 春 风 ， 歌 尽 屁 于 她 ， 醇 来 入 梦 中 。” 这 首 诗 如 何 ? 电话 中 是 一 位 声音 甜美 ， 自 称 
小 鱼 的 女生 ， 听 到 这 ， 昏 沉 膀 胱 的 少年 ， 突 然 振作 了 ， 既 疑惑 又 激动 ， 思 考 一 会 儿 ， 紧 张 又 
兴奋 地 说 道 “ 虽 然 我 不 懂 诗 ， 但 感觉 剪 和 弹 用 得 非常 妙 呀 。 请 问 我 认识 你 吗 ? ” mE, A 
好 意思 ， 我 打 错 电话 啦 ， 我 还 以 为 你 是 我 闺蜜 ”， 电 话 那 头 娇羞 地 答 到 。 机 智 如 小 飞 ， 背 定 
不 会 错过 这 美丽 的 错误 , 然后 就 立即 回 道 …… 以 上 故事 , 是 我 将 图 灵 在 1950 年 《机 器 与 智能 》 
中 关于 “模仿 游戏 ”四 的 一 段 改编 ， 而 上 述 诗句 是 来 自 于 中 科 院 院士 张 钱 展示 的 机 器 人 所 做 
的 诗 。 

随 着 现代 技术 的 进步 ， 特 别 是 深度 学 习 (Deep Learning) 中 的 发 展 ， 完 成 上 述 任务 并 不 
再 是 天 方 夜 谭 。 我 们 不 妨 和 图 灵 一 起 思考 ， 如 果 机 器 能 够 完成 上 述 的 问答 ， 那 小 飞 怎么 去 判 
断 是 人 或 者 是 机 器 呢 ? 那 所 谓 的 意识 又 是 什么 呢 ? 带 着 这 些 令 人 头痛 但 又 激动 的 思考 ， 我 们 
现在 就 开始 深度 学 习 的 入 门 之 旅 。 

在 一 百 多 年 前 ， 可 编程 计算 机 第 一 次 被 构想 出 时 ， 人 们 就 想象 着 机 器 是 否 可 以 变 得 智能 。 
如 今 ， 人 工 智 能 已 是 一 个 欣欣 向 荣 的 领域 ， 拥 有 着 许多 实际 应 用 及 激动 人 心 的 研究 主题 。 我 
们 期 望 智能 软件 能 够 应 用 到 自动 化 家 居 、 语 音 识别 、 图 像 理 解 、 医 疗 诊断 及 辅助 基本 科学 的 
研究 中 去 。 

人 与 计算 机 就 像 天 平 的 两 端 ， 机 器 善于 计算 ， 只 要 问题 能 被 一 系列 数学 规则 形式 化 描述 
出 来 ， 人们 就 可 以 编写 程序 让 机 器 执行 。 比 如 求解 线性 方程 组 ， 计 算 行星 轨迹 等 ， 虽 然 这 些 
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任务 很 复杂 ， 但 对 于 机 器 而 言 却 很 简单 。 但 有 些 问题 虽然 看 似 简 单 ， 但 人 却 难 以 描述 ， 比 如 
人 如 何 识别 口语 ， 文 字 或 脸 部 图 像 。 由 于 人 难以 描述 这 些 本 能 就 会 的 任务 ， 虽 然 人 处 理 很 简 
单 ， 但 对 于 机 器 而 言 却 难于 上 青天 。 而 人 工 智 能 的 目标 就 是 去 解决 人 容易 执行 ， 但 很 难 形式 
化 描述 的 任务 。 

在 早期 的 人 工 智能 中 ， 我 们 想 要 机 器 智能 地 完成 某 项 任务 ， 我 们 首先 需要 使 用 形式 化 语 
言 ， 硬 编码 关于 该 任务 的 知识 ; 然后 计算 机 通过 这 些 形 式 化 语言 ， 自 动 使 用 逻辑 推理 规则 去 
推理 状态 。 但 其 中 根本 问题 在 于 ， 我 们 要 知道 如 何 解决 某 项 问题 。 比 如 ， 我 们 想 教 机 器 人 下 
棋 ， 我 们 知道 确定 的 规则 ， 也 知道 某 些 下 棋 的 技巧 ， 然 后 我 们 将 各 种 规则 、 各 种 技巧 通过 编 
程 实现 出 来 ， 那 么 机 器 就 学 会 了 下 棋 。 机 器 棋艺 的 高 低 ， 其 实 只 是 编程 人 员 棋 艺 的 高 低 ， 机 
器 只 是 比 人 类 运算 快 一 些 喷 了。 但 有 些 事情 ， 我 们 是 很 难 描述 清楚 的 ， 我 喜欢 一 末 花 ， 一 首 
诗 ， 一 个 人 ,但 问 我 为 什么 喜欢 ， 我 却 不 知道 。 同 样 地 ， 你 想 让 机 器 去 赏析 一 首 诗 ， 一 杂 花 ， 
-个 人 ， 那 也 是 很 难 完成 的 任务 。 

深度 学 习 便 是 这 些 更 直觉 问题 的 一 种 解决 方案 。 这 种 解决 方案 允许 电脑 从 经 验 中 学 习 并 
依靠 层次 化 概念 去 理解 世界 。 通 过 从 经 验 中 收集 知识 ， 这 种 方法 避免 了 人 类 手工 地 去 形式 化 
列举 电脑 所 需 的 知识 ， 层 次 化 概念 允许 电脑 从 更 简单 的 概念 中 学 习 更 抽象 的 概念 。 也 许 现在 
你 已 经 有 点 晕 眩 了 ， 那 我 们 就 先 轻松 地 讲 一 个 故事 吧 。 

认识 小 鱼 同 学 后 ， 为 了 博取 小 鱼 同学 的 欢心 ， 小 飞 就 想 亲 手 做 一 道 黄 炯 鸡 给 小 鱼 。 于 是 
他 就 翻 看 了 一 下 食谱 ， 开 始 了 “实验 ”: 首先 ， 准 备 各 种 食材 ; 然后 ， 将 各 种 配 菜 预 炒 ， 再 
放 入 鸡 块 爆 炒 ; 爆 炒 入 味 后 再 放 入 一 碗 水 ， 用 锅 盖 炯 10 分 钟 ， 最 终 黄 炯 鸡 就 出 锅 了 。 小 飞 党 
了 尝 亲 手 做 的 黄 炯 鸡 ， 如 你 所 想 ， 才 将 鸡 块 入 口 ， 就 吐 了 出 来 ， 因 为 实在 太 难 吃 了 。 但 小 飞 
并 没有 灰心 ， 总 结 了 一 下 ， 少 放 了 点 水 ， 多 加 了 点 盐 ， 再 多 炒 了 会 儿 鸡 块 ， 鼓 起 勇气 一 党。 
好 咸 啊 ! 虽然 又 失败 了 ， 但 总 体 还 是 挺 开心 的 ， 因 为 至 少 可 以 吃 了 。 一 鼓 作 气 ， 再 次 总 结 ， 
再 次 实验 ， 志 下 地 再 次 试 尝 ， 总 算 有 了 黄 炯 鸡 该 有 的 味 儿 了 。 起 锅 打 包 ， 小 飞 开 心地 去 找 小 
鱼 同 学 去 了 ee 

从 以 上 的 故事 中 ， 我 们 发 现 了 什么 ? 发 现 小 飞 买 了 很 多 鸡肉 ， 我 们 知道 了 ， 小 飞 一 开始 
不 会 做 黄 炯 鸡 ， 但 通过 不 断 尝 试 ， 是 可 以 做 好 黄 炯 鸡 的 。 在 此 期 间 ， 小 飞 做 了 什么 事 呢 ? 其 
实 只 是 在 调整 ， 放 多 少 水 ， 放 多 少 盐 ， 者 多 久 ， 炒 多 久 等 ， 而 这 个 过 程 就 是 一 个 简单 的 学 习 
行为 。 同 理 ， 在 机 器 学 习 中 ， 我 们 并 不 是 将 做 黄 烂 鸡 的 整个 过 程 ， 每 个 细节 都 编程 给 机 器 ， 
相反 ， 我 们 把 小 飞 的 学 习 过 程 ， 复 制 给 机 器 。 做 一 次 黄 炯 鸡 ， 我 们 可 以 将 其 称 为 一 个 数据 ， 
而 放水 ， 放 盐 ， 煮 多久， 我 们 可 以 称 为 数据 的 特征 〈EFeature) ， 对 于 学 习 最 朴素 的 理解 其 实 
就 是 调整 数据 特征 各 自 的 重要 性 。 

我 们 再 仔细 剖析 一 下 上 面 的 故事 ， 有 一 个 过 程 叫 作 食材 准备 阶段 ， 我 们 可 以 简单 地 将 该 
阶段 作为 “ 黄 烂 鸡 ” 数 据 的 一 个 特征 ， 当 然 ， 我 们 也 可 以 将 这 一 特征 再 细 分 一 下 ， 多 少 姜 、 
多 少 辣椒 配 多 少 鸡 块 呢 ? 而 着 油 的 多 少 和 水 的 多 少 又 如 何 调配 呢 ? 那 这 些 又 如 何 影响 爆 炒 和 
FERIRE? 数据 的 特征 直接 影响 着 学 习 的 难度 及 最 终结 果 的 好 坏 。 如 果 我 们 先 学 习 油 盐 
效 醋 的 调配 ， 将 其 组 成 配料 特征 ， 这 样 就 简化 了 整个 学 习 过 程 ， 而 这 种 特征 到 特征 的 学 习 ， 
我 们 就 称 为 表征 学 习 或 表示 学 习 (Representation LearningB，“ 表 征 ” 是 一 个 心理 学 词汇 ， 翻 
译 成 表征 更 贴切 些 ， 但 “表示 ”更 常用 些 ) 。 如 果 我 们 将 做 黄 炯 鸡 的 过 程 , 细 分 得 非常 细致 ， 
也 就 是 特征 维度 〈 数 量 ) 很 高 ， 那 么 每 一 维度 对 最 终 学 习 任务 好 坏 的 影响 就 越 小 ， 如 香菇 的 
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征 也 相互 影响 着 其 他 特征 的 选择 。 因 此 我 们 先 学 习 配 菜 这 一 简单 的 概念 或 特征 ， 然 后 再 学 习 
一 些 更 抽象 的 概念 ， 一 层 一 层 的 抽象 ， 最 终 仅仅 去 学 习 “ 选 材 ”“ 黄 烟 ” 这 些 特别 抽象 的 特 
征 ， 这 就 是 所 谓 的 深度 学 习 。 
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本 书 是 一 本 有 关 深 度 学 习 的 入 门 实战 教程 ， 目 的 在 于 尽 可 能 以 一 种 轻松 的 方式 ， 讲 解 一 
些 深度 学 习 核 心 的 技术 ， 关 键 的 思想 ， 以 及 常用 的 技巧 方法 。 需 要 注意 的 是 ， 深 度 学 习 充 斥 
者 大 量 的 数学 公式 ， 大 多 数 人 可 能 会 望 而 生 旦 ， 看 着 公式 就 头痛 欲 裂 。 但 数学 只 是 工具 ， 数 
学 公式 只 是 简化 我 们 的 描述 ， 我 们 更 应 该 做 的 是 深入 理解 这 些 公 式 背 后 的 哲学 内 涵 。 本 书 同 
样 会 列 出 很 多 的 公式 ， 但 请 读者 们 不 要 在 意 所 谓 的 公式 ， 应 该 多 去 看 一 些 文字 性 描述 ， 理 顺 
公式 的 每 一 次 演变 ， 公 式 是 帮助 你 快速 的 记忆 ， 并 不 是 你 的 负担 。 也 许 ， 对 于 大 多 数 读 者 ， 
看 懂 各 种 算法 ， 了 解 各 种 思想 ， 但 编写 程序 还 是 无 从 下 手 ， 本 书 将 使 用 IPython Notebook Ж 
行 模块 化 编程 练习 ， 我 们 会 一 步 一 步 地 动手 实践 ， 希 望 能 帮助 你 从 理论 走向 实践 ， 并 从 实践 
中 加 深 对 理论 知识 的 进一步 理解 。 

深度 学 习 能 够 火爆 的 最 主要 原因 是 大 数据 的 到 来 ， 以 及 运算 能 力 的 大 大 提高 ， 针 对 GPU 
编程 的 Theano, TensorFlow, Torch 等 深度 学 习 库 ， 都 是 非常 好 的 学 习 资源 ， 如 果 你 想 从 事 深 
度 学 习 研 究 ， 则 应 该 至 少 掌握 一 种 以 上 的 深度 学 习 库 。 但 本 书 的 目的 在 于 让 你 不 那么 头痛 欲 
裂 地 跨 入 深度 学 习 领 域 ， 本 书 并 不 是 一 本 深度 学 习 平台 指导 用 书 。 在 本 书 的 最 后 一 章 ， 我 们 
会 教 你 如 何 搭建 TensorFlow 深度 学 习 库 ， 帮 助 你 铺垫 更 广阔 的 知识 世界 。 我 们 希望 能 给 你 一 
个 小 板 络 ， 然 后 你 可 以 站 上 去 ， 和 希望 你 拥有 了 瞳 望 远方 的 喜悦 ， 希 望 你 能 享受 在 微风 中 的 呼吸 。 
因此 ， 如 果 你 有 些 慢 怕 数学 公式 或 编程 能 力 相对 较 弱 ， 这 些 都 没关系 。 最 重要 的 是 你 异 慢 着 
深度 学 习 ， 相 信和 集体 的 力量 ， 渴 望 着 人 工 智能 ， 同 时 也 不 太 在 意 一 些 稍 显 不 严谨 的 语言 ， 那 
或 许 这 是 一 本 属于 你 的 书 。 需 要 注意 的 是 ， 本 书 作 为 入 门 书籍 ， 只 会 重点 介绍 深度 学 习 在 实 
际 应 用 中 的 技术 及 方法 ， 深 度 学 习 的 一 些 高 级 研究 主题 ， 如 自动 编码 器 (Autoencoder) , 
受 限 玻 尔 兹 曼 机 (RBM) 外 等 非 监 督学 习 研 究 主 题 并 不 涉及 。 但 这 些 主题 是 深度 学 习 的 研究 
重点 ， 对 于 有 志 从 事 深度 学 习 研 究 的 专业 人 员 而 言 ， 这 些 主题 才 是 更 广阔 的 世界 。 

每 章 我 们 都 会 分 为 两 个 部 分 ， 第 一 部 分 介绍 该 章节 的 深度 学 习 技术 ， 第 二 部 分 进行 编程 
练习 ， 在 每 章 的 末尾 ， 我 们 给 出 了 参考 代码 ， 希 望 在 你 想 要 放弃 时 给 你 点 帮助 。 本 书 的 知识 
内 容 主 要 参考 于 Ian Goodfellow, Yoshua Bengio, Aaron Courville 所 著 的 Deep Learning 以 及 
斯 坦 福 大 学 的 CS231 公开 课 ， 你 也 可 以 将 本 书 作 为 学 习 这 些 书 的 铺垫 。 
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喜欢 一 个 人 ， 就 应 该 去 了 解 她 的 过 去 ， 感 受 她 的 曾经 。 想 要 学 习 深度 学 习 ， 不 妨 也 粗略 
地 了 解 下 它 的 过 去 ， 下 面 我 们 列 出 了 一 些 深度 学 习 的 关键 趋势 。 


° ”深度 学 习 拥 有 悠久 的 历史 ， 曾 经 几 度 “ 改 嫁 ”， 反映 着 不 同 的 哲学 观点 ， 并 且 流 行 度 
也 是 几 度 兴衰 。 
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° 深度 学 习 随 着 可 训练 数据 的 不 断 增长 变 得 更 加 有 用 。 
。。 随 着 计算 机 硬件 ， 软 件 基础 设施 的 提高 ， 深 度 学 习 模 型 尺寸 正在 变 大 。 
° ” 随 着 精确 度 不 断 地 提高 ， 深 度 学 习 已 经 开始 应 用 于 越 来 越 复杂 的 领域 . 


“ 深 滚 长 江东 逝 水 ， 浪 花 淘 尽 英雄 ， 是 非 成 败 转 头 空 ， 青 山 依 旧 在 ， 几 度 夕阳 红 ……” 
许多 读者 或 许 已 经 听 说 过 深度 学 习作 为 一 种 令 人 激动 的 新 技术 ， 刺 激 着 整个 人 工 智能 领域 的 
发 展 ， 并 且 让 整个 社会 前 所 未 有 地 讨论 着 人 工 智能 这 一 话题 。 但 事实 上 ， 深 度 学 习 最 早 可 以 
追溯 到 二 十 世纪 四 十 年 代 。 深 度 学 习 之 所 以 似乎 是 新 的 ， 是 因为 其 流行 度 几经 沉浮 ， 说 得 严 
重 些 ， 滩 度 学 习 以 前 是 遭 到 同行 鄙视 的 。 滩 度 学 习 历 经 多 次 “ 良 妻 改嫁 ”并 跟随 “夫君 ” 改 
名 多 次 ， 并 且 只 是 最 近 才 称 为 “深度 学 习 ”。 其 实 这 个 领域 已 经 更 名 了 许多 次 ， 其 也 映射 出 
不 同学 者 ， 不 同 思想 对 该 领域 的 影响 。 

泛泛 地 说 ， 深 度 学 习 的 发 展 有 三 段 起 伏 : 在 1940 一 1960 年 ， 深 度 学 习 被 称 为 控制 论 ， 随 
着 生物 学 习 理论 的 发 展 ， 以 及 感知 机 模型 的 实现 ， 爆 发 了 第 一 波 热潮 。 第 二 波浪 潮 为 1980 一 
1995 年 ， 开 始 于 联结 主义 中 方法 ， 随 着 使 用 反 向 传播 算法 训练 1~2 个 隐藏 层 的 神经 网 络 而 迅 
速 “膨胀 ”。 而 当前 以 深度 学 习 之 名 复苏 是 始 于 2006 年 , 由 于 使 用 逐 层 贪 禁 非 监督 式 预 训练 外 
方法 初始 化 深层 神经 网 络 权重 ， 使 得 网 络 在 数据 集 较 少时 依然 可 以 有 效 地 训练 深层 的 神经 网 
络 ， 而 在 2012 年 后 深度 学 习 彻 底 被 工业 界 所 接纳 ， 大 量 的 公司 及 科研 人 员 开 始 关注 了 深度 学 
习 。 


1.2.1 ”模拟 生物 大 脑 的 疯狂 远古 时 代 


大 浪 淘 沙 ， 如 今 洗 尽 铅 华 的 一 些 算法 是 模拟 生物 学 习 的 计算 模型 。 深 度 学 习 过 去 的 名 字 
也 被 称 为 人 工 神经 网 络 (ANNs) 中 。 深 度 学 习 模型 也 可 以 说 是 受 生物 大 脑 ( 无 论 人 类 大 脑 还 
是 动物 大 脑 ) 启发 的 工程 系统 。 并 且 ， 用 于 机 器 学 习 的 神经 网 络 有 时 也 用 于 帮助 理解 大 脑 的 
功能 。 神 经 网 络 的 思考 方式 主要 基于 两 种 观点 ， 一 种 观点 是 ， 大 脑 证 明了 智能 行为 是 可 能 的 ， 
那么 去 构建 智能 最 直接 的 方式 就 是 模拟 大 脑 ， 复 制 其 功能 ， 另 一 种 观点 则 相反 ， 期 望 通过 神 
经 网 络 去 理解 人 类 智慧 及 其 原则 。 因 此 ， 神 经 网 络 模型 除了 解决 工程 问题 外 ， 还 试图 解释 人 
类 智慧 等 基本 科学 问题 。 
现代 的 术语 “深度 学 习 ” 已 经 超出 了 神经 科学 在 当前 机 器 学 习 模型 上 的 观点 ， 其 引出 了 
更 通用 的 学 习 原 则 ， 即 多 层次 组 合 的 原则 ， 这 个 原则 能 够 应 用 于 不 拘泥 于 神经 元 启发 的 
机 器 学 习 框架 。 
现代 深度 学 习 的 鼻祖 是 受 神经 科学 观点 启发 的 简单 线性 模型 。 该 模型 如 上 述 的 “ 黄 炯 鸡 
模型 ”一 样 ， 使 用 一 组 n 维 输入 值 am，…， 加 作为 数据 ， 然 后 将 它们 与 输出 了 关联 起 来 。 该 
模型 能 够 学 习 一 组 权重 wj，…，w 并 且 计算 它们 的 输出 。 

神经 网 络 研究 的 第 一 个 高 潮 以 控制 论著 称 。 麦 卡 洛克 - 皮 茨 神经 元 四 是 一 种 早期 的 脑 功 
能 模型 ， 该 线性 模型 通过 测试 (x，w) 值 的 正 负 ， 能 够 识别 两 种 不 同 的 输入 分 类 。 当 然 ， 为 
了 该 模型 符合 期 望 的 分 类 定义 ， 其 权重 需要 正确 设置 ， 但 这 些 权重 需要 通过 人 类 操作 设置 。 
在 20 世纪 50 年 代 ， 感 知 机 外 成 为 第 一 个 从 给 定 的 输入 样 例 中 学 习 分 类 权重 的 模型 。 大 约 在 
相同 时 期 ， 自 适应 线性 单元 (ADALINE) 5 同样 能 够 自动 地 学 习 预 测 数 字数 据 。 这 些 成 就 虽 
然 很 简单 ， 但 给 了 当时 的 人 工 智能 领域 很 大 的 冲击 。 因 为 当时 的 主流 思想 是 计算 机 能 够 做 正 


> 





第 1 章 深度 学 习 的 发 展 介绍 = 





确 的 逻辑 推理 将 本 质 上 解决 人 工 智能 问题 。 一 时 间 神 经 网 络 受到 了 大 量 的 关注 与 投资 ， 但 其 
中 也 有 许多 不 切实 际 的 想法 ， 因 此 也 受到 了 许多 学 者 的 “仇视 ”。MIT 人 工 智能 实验 室 创始 
人 Marvin Minsky 和 Seymour Papert 就 是 持 怀疑 态度 的 两 位 学 者 。1969 年 ， 他 们 在 一 本 开创 
性 著作 中 表达 了 这 种 质疑 ， 书 中 严谨 分 析 了 感知 机 的 局 限 性 ， 书 名 很 贴切 ， 就 叫 《 感 知 机 》 
其 理论 证 明了 感知 机 无 法 学 习 异 或 函数 。 看 到 线性 模型 中 这 些 缺 陷 的 批评 者 们 ， 掀 起 了 强烈 
反对 生物 启发 学 习 的 浪潮 ， 这 也 导致 了 神经 网 络 的 第 一 次 主要 衰败 。 

但 这 些 简单 的 学 习 算 法 深远 地 影响 了 现代 机 器 学 习 的 格局 。 用 于 学 习 自 适应 线性 单元 权 
重 的 训练 算法 是 随机 梯度 下 降 算 法 的 特例 ， 而 随机 梯度 下 降 算法 的 稍微 修改 版 本 仍然 是 如 今 
深度 学 习 领 域 统治 级 的 训练 算法 。 

如 今 ， 对 于 深度 学 习 研 究 而 言 ， 神 经 科学 被 当 作 是 一 种 重要 的 灵感 源泉 ， 但 其 不 再 是 该 
领域 主要 的 指导 了 。 而 神经 科学 在 深度 学 习 领 域 中 被 前 弱 的 主要 原因 在 于 我 们 对 大 脑 还 没有 
足够 的 认 知 ， 并 使 用 其 作为 指导 。 

神经 科学 给 了 我 们 理由 去 期 望 ， 一 个 单独 的 深度 学 习 算法 能 够 解决 许多 不 同 的 任务 。 神 
经 科学 家 已 经 发 现 ， 如 果 雪 貂 的 大 脑 被 重新 连接 ， 将 视觉 信号 传送 到 听觉 处 理 区 域 ， 雪 巍 就 
能 通过 它们 大 脑 的 听觉 处 理 区 域 学 习 “ 看 ”。 我 们 也 许可 以 假设 ， 大 多 数 哺乳 动物 大 脑 可 能 
使 用 一 个 单独 的 算法 去 解决 大 脑 中 的 大 多 数 不 同 任务 。 在 这 假设 之 前 ， 机 器 学 习 研 究 是 碎片 
化 的 ， 不 同 的 研究 社区 研究 自然 语言 处 理 、 视 觉 、 运 动 以 及 语音 识别 任务 。 如 今 ， 这 些 应 用 
领域 仍然 分 离 ， 但 对 于 深度 学 习 研究 团体 来 说 , 同时 研究 许多 甚至 是 全 部 应 用 领域 是 常见 的 。 

我 们 能 够 从 神经 科学 中 获得 一 些 粗糙 的 指导 方针 ， 如 神经 认 知 机 0 受到 哺乳 动物 视觉 系 
统 的 启发 ， 引 入 了 一 种 强大 的 图 像 处 理 模型 结构 ， 并 在 之 后 成 为 卷 积 神经 网 络 5 的 基础 。 虽 
然 神经 科学 是 深度 学 习 重 要 的 灵感 来 源 ， 但 并 不 需要 将 其 作为 一 种 刚性 指南 ， 真 实 神经 元 相 
比 于 神经 元 模型 来 说 复杂 得 多 ， 但 使 用 更 真实 的 神经 元 并 没有 提高 机 器 学 习 的 性 能 。 同 时 ， 
虽然 神经 科学 已 经 成 功 地 启发 了 一 些 神经 网 络 结构 ， 但 由 于 我 们 对 于 生物 学 习 还 没有 足够 多 
的 了 解 ， 神 经 科学 还 无 法 给 我 们 训练 这 些 结构 提供 太 多 的 指导 。 

各 种 宣传 经 常 强调 深度 学 习 与 大 脑 的 相似 性 。 虽 然 深度 学 习 研 究 相 比 于 其 他 的 机 器 学 习 
研究 ， 如 核 函数 机 或 贝 叶 斯 统计 ， 确 实 更 像 去 模拟 大 脑 工 作 ， 但 并 不 应 该 仅仅 把 深度 学 习作 
为 模拟 大 脑 的 一 种 尝试 。 现 代 深 度 学 习 灵 感 来 源 于 许多 领域 ， 尤 其 是 应 用 数学 基础 ， 像 是 线 
性 代数 ， 概 率 论 ， 信 息 论 及 数值 优化 等 。 虽然 有 一 些 深度 学 习 研究 以 神经 科学 作为 重要 的 灵 
感 来 源 ， 但 其 他 一 些 完全 和 神经 科学 无 关 。 

需要 注意 的 是 ， 在 算法 级 别 努 力 理解 大 脑 如 何 工 作 依 然 是 盛行 的 ， 这 种 努力 主要 以 “ 计 
算 神 经 学 ”著称 ， 并 且 是 深度 学 习 的 一 个 单独 的 研究 领域 ,研究 人 员 反 复 地 在 这 两 个 领域 移 
动 是 很 平常 的 。 深度 学 习 领域 主要 关心 怎样 构建 计算 机 系统 , 来 成 功 地 解决 所 需 的 智能 任务 ; 
计算 神经 学 领域 主要 关心 构建 更 精确 模型 ， 模 拟 大 脑 如 何 真实 工作 。 


1.22 ”联结 主义 近代 











在 20 世纪 80 年 代 ， 出 现 了 第 二 波 神经 网 络 研究 高 潮 ， 并 被 称 为 联结 主义 或 并 行 分 布 处 
理 蚀 。 认 知 科学 是 以 一 种 跨 学 科 的 方法 组 合 多 个 不 同 水 平 的 分 析 去 理解 思维 ， 而 联结 主义 就 
出 现在 认 知 科学 的 这 一 背景 下 。 在 20 世纪 80 年 代 早期 ， 大 多 数 认 知 科学 家 研究 符号 推理 模 
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型 ， 尽 管 当时 非常 流行 ， 但 符号 模型 非常 难于 解释 大 脑 如 何 能 够 真实 地 使 用 神经 元 执行 这 些 
符号 。 因 此 联结 主义 开始 研究 能 够 依据 神经 元 执行 的 认 知 模型 5 习 。 联 结 主义 的 核心 思想 是 大 
量 简单 的 计算 单元 连接 在 一 起 能 够 完成 智能 行为 ， 这 种 观点 同样 适用 于 生物 神经 系统 的 神经 
元 及 计算 模型 的 隐 茂 单元。 并 且 在 20 世纪 80 年 代 随 着 联结 主义 兴起 的 一 些 关键 概念 ， 仍 然 
是 如 今 深度 学 习 的 核心 。 

其 中 之 一 是 分 布 式 表征 0。 这 种 观点 是 系统 的 高 级 或 抽象 特征 由 多 个 子 特 征 组 合 而 来 ， 
并 且 通 过 组 合 不 同 的 子 特征 ， 系 统 可 以 构造 不 同 的 高 级 特征 。 例 如 ， 假 设 需要 有 一 个 视觉 系 
统 能 够 识别 汽车 、 卡 车 和 鸟 ， 并 且 这 些 对 象 可 能 是 红色 、 绿 色 或 蓝 色 。 一 种 表述 方式 是 使 用 
独立 神经 元 ， 红 卡车 、 红 汽车 、 红 鸟 、 绿 卡车 等 。 这 需要 9 个 不 同 的 神经 元 ， 并 且 每 个 神经 
元 必须 独立 地 学 习 颜 色 或 对 象 概念 。 另 一 种 提高 的 方式 是 使 用 分 布 式 表征 ， 三 个 神经 元 描述 
颜色 ， 三 个 神经 元 描述 对 象 。 这 仅仅 需要 6 个 神经 元 而 不 是 9 个 ， 并 且 描 述 红 色 的 神经 元 能 
够 学 习 汽车 ， 卡 车 以 及 鸟 类 图 像 中 的 红色 ， 不 仅仅 局 限于 特定 对 象 的 分 类 图 片 。 

联结 主义 的 另 一 个 成 就 是 成 功 地 使 用 反 向 传播 算法 中 训练 深度 神经 网 络 。 该 算法 的 流行 
度 也 是 跌宕 起 伏 ， 但 如 今 依然 是 训练 深度 模型 统治 级 的 方法 。 

神经 网 络 研究 的 第 二 个 高 潮 持续 到 20 世纪 90 年 代 中 期 , 当 基 于 神经 网 络 和 其 他 AI 技术 
的 投资 者 寻找 投资 时 ， 又 开始 表现 不 切实 际 的 雄心 壮志 ， 当 智能 研究 无 法 满足 这 些 不 合理 的 
期 望 时 ， 投 资 者 非常 的 失望 。 同 时 ， 其 他 机 器 学 习 模型 也 在 飞速 地 发 展 ， 如 核 函 数 机 05， 概 
率 图 模型 59 都 在 许多 重要 任务 中 取得 了 良好 的 结果 。 这 两 个 因素 导致 了 神经 网 络 流行 度 的 误 
退 ， 这 种 衰退 一 直 持续 到 了 2007 年 。 

虽然 处 于 低迷 期 但 一 些 人 仍然 没有 将 其 放弃 。 加 拿 大 高 级 研究 所 (CIFAR) 通过 其 神 
经 计算 与 自 适 应 感知 机 (NCAP) 研究 计划 保持 神经 网 络 研究 的 存活 。 该 项 目 联合 了 由 多 伦 多 
大 学 的 Geoffrey Hinton， 蒙 特 利 尔 大 学 的 Yoshua Bengio 以 及 纽约 大 学 的 Yann LeCun 领导 的 
机 器 学 习 研 究 团 队 ， 并 且 还 襄 括 了 一 大 批 项 尖 的 神经 科学 ， 人 类 和 计算 机 视觉 方面 专家 。 


123 百花齐放， 层次 结构 主导 ， 模 型 巨大 的 当代 





神经 网 络 研究 的 第 三 波 高 潮 开始 于 2006 年 的 重大 突破 。Geoffrey Hinton 展示 了 一 种 名 叫 
深度 置信 网 络 (Deep Belief Networks，DBN) 5 的 神经 网 络 ， 它 通过 使 用 逐 层 贪 禁 预 训练 的 
方式 能 够 高 效 地 训练 网 络 。 其 他 的 CIFAR 附属 研究 机 构 也 迅速 地 展示 了 同样 的 策略 可 以 应 用 
在 许多 其 他 的 深度 网 络 中 ， 并 且 系 统 地 提高 了 测试 样 例 的 泛 化 能 力 。 这 波 神经 网 络 的 研究 ， 
通俗 化 地 使 用 深度 学 习 术 语 来 强调 深层 概念 的 重要 性 。 相 比 之 前 ， 研 究 者 能 够 训练 更 深 的 神 
经 网 络 ， 并 且 关 注 深度 理论 。 这 时 ， 深 度 神经 网 络 性 能 远 远 超过 了 基于 其 他 机 器 学 习 技术 的 
智能 系统 和 手工 设计 的 功能 。 时 间 到 了 2012 年 ，Hinton 领导 的 深度 学 习 小 组 使 用 ALexNetl!8] 
网 络 ， 在 ImageNet 计算 机 视觉 挑战 赛 上 ， 将 当时 最 佳 图 像 识别 性 能 提高 了 一 倍 。 从 此 引爆 了 
学 术 界 及 工业 界 ， 并 且 ALexNet 网 络 和 传统 的 CNN 网 络 并 没有 本 质 区 别 ， 其 核心 只 是 选用 
了 更 简单 的 ReLU 神经 元 并 使 用 GPU 进行 加 速 学 习 。 人 们 开始 重新 审视 一 大 批 以 前 遭 到 抛弃 
的 深度 学 习 模 型 ， 并 且 各 大 公司 也 开始 了 超大 规模 深度 模型 的 研究 ， 超 大 规模 数据 集 的 “ 军 
备 竞赛 ”也 正在 上 演 。 
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戏剧 化 地 改变 了 ， 第 三 波 高 潮 开始 关注 新 非 监督 学 习 技术 以 及 深度 模型 在 小 数据 集 的 泛 化 能 
力 。 但 这 些 高 级 主题 还 处 在 实验 室 研究 之 中 ， 由 于 篇 幅 有 限 ， 本 文 仅 介绍 被 成 熟 应 用 于 工业 
界 的 监督 式 学 习 算法 ， 有 兴趣 的 读者 可 以 参阅 Ian Goodfellow 所 著 的 Deep Learning 的 高 级 研 
究 主 题 。 

总 之 ， 深 度 学 习 是 机 器 学 习 的 一 个 重要 分 支 ， 并 且 随 着 过 去 几 十 年 的 发 展 ， 已 经 吸收 了 
大 量 神经 科学 ， 统 计 学 以 及 应 用 数学 的 知识 。 在 最 近 几 年 中 ， 由 于 计算 机 更 强 的 能 力 ， 更 大 
的 数据 集 以 及 一 些 训练 深度 网 络 的 新 技术 兴起 ， 其 流行 度 已 经 获得 了 极 大 的 增长 。 但 正如 这 
些 年 神经 网 络 的 跌宕 起 伏 一 样 ， 目 前 深度 学 习 虽 然 处 于 上 升 期 但 有 可 能 会 来 到 一 个 梦想 破 
TEE AS, 没有 人 能 说 得 准 ， 甚 至 还 有 大 量 的 科学 家 开始 担忧 起 人 工 智能 可 能 会 是 一 个 潘 
多 拉 魔 盒 。 

但 勇敢 不 是 不 且 惧 ， 而 是 心怀 恐惧 ， 仍 然 向 前 。 我 们 使 用 图 灵 于 1950 年 《机 器 与 智能 》 
论文 中 的 最 后 一 句 话 ， 作 为 我 们 的 开始 ， 接 下 来 ， 我 们 就 将 正式 进入 本 书 的 学 习 。 

We can only see a short distance ahead, but we can see plenty there that needs to be done. 

一 一 Alan Mathison Turing 


1.3 Python 简易 教程 


Python 是 一 种 非常 简单 易学 的 解释 性 语言 。 由 于 强大 的 开源 库 支 持 (NumPy、Scipy、 
Matplotlib) ， 其 广泛 应 用 于 科学 计算 中 。 如 果 你 励志 成 为 一 名 数据 科学 家 或 数据 “ 攻 城 狮 ”， 
那么 Python 就 是 你 必须 要 学 会 的 工具 之 一 。 接 下 来 我 们 将 简短 地 介绍 下 Python, NumPy, 
Matplotlib 的 使 用 ， 如 果 你 已 经 十 分 熟悉 这 些 内 容 ， 可 以 轻松 地 跳 过 该 章节 ， 直 接 进入 下 一 章 
节 的 学 习 。 本 章节 教程 内 容 主要 参考 于 斯 坦 福 大 学 cs228 课程 的 Python 教程 ， 有 具体 详情 可 以 
使 用 下 列 网 址 查看 : 

https://github.com/kuleshov/cs228-material/blob/master/tutorials/python/cs228-python-tutorial.ipynb. 


1.3.4 Anaconda 搭建 


Anaconda 是 开发 Python 最 常用 的 开源 平台 之 一 ， 已 经 为 你 安装 了 Python 中 最 常用 的 工 
具 库 CNumPy. Matplotlib. Scipy. IPython 等 ) ， 使 用 起 来 非常 方便 ， 读 者 可 以 访问 
https://www.continuum.io/downloads/ 网 址 进行 下 载 。 本 书 的 教程 将 使 用 Python2.7+ 版 本 ， 因 此 
确保 你 下 载 的 版 本 符合 我 们 的 要 求 。 在 本 节 中 ， 将 逐步 学 习 以 下 内 容 。 

° Python 基本 使 用 : 基本 数据 类 型 (Containers、Lists、Dictionaries、Sets、Tuples ), 

Sk, X 
° NumPy: 数组 ， 数 组 索引 ， 数 据 类 型 ， 数 组 运算 ， 广 播 ; 
° Matplotlib: Plotting, Subplots, Images. 


1.3.2 IPython Notebook 使 用 


IPython Notebook ( 现 改 名 Jupyter Notebook) 是 一 种 基于 Web 技术 的 交互 式 计算 文档 ， 
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使 用 浏览 器 作为 客户 端 进行 交互 , 其 页 面 被 保存 为 .ipynb 的 类 JSON 文件 格式 , 是 非常 高 效 的 
教学 演示 工具 。 本 书 的 教学 教程 主要 就 使 用 [Python Notebook 进行 分 模块 演示 。 安 装 Anaconda 
时 ， 默 认 就 安装 了 IPython Notebook， 读 者 只 需 直 接 启动 即 可 。 


° ”启动 IPython Notebook 


首先 启动 Jupyter: 如 图 1-1 所 示 ， 启 动 dos 窗口 ， 将 路 径 转 换 到 文件 : “第 1 章 练习 
-numpy.ipynb” 所 在 路 径 ， 然 后 输入 jupyter notebook (或 ipython notebook) 命令 ， 再 按 Enter 
键 确认 。 这 时 ， 浏 览 器 会 自动 启动 Jupyer。 
ш сня о 


icrosoft Windows [版 本 10. 0. 14393 
(c) 2016 Microsoft Corporation. 保留 所 有 权利 . 





М5 -jupyter notebook 





С: \WINDOWS\system32>ed f:\DLAction 
С: \WINDOWS\system32>f: 









ругег notebook _ 
76 NotebookApp] [nb conda kernels] enabled, 2 kernels found 
764 NotebookApp] icondacloud] enabled 

9 NotebookApp] nbpresent НІМІ, export ENABLED К 
T9 NotebookApp] \u2717 esent PDF export DISABLED: No module named ' nbbrowserpdf' 
464 NotebookApp] [nb . Senda] enabled 
701 NotebookApp] Serving notebooks from local directory: f:\DLAction 
701 NotebookApp] 0 active kernels 
701 NotebookApp] The Jupyter Notebook is running at: http://loc 
701 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation) 



























1-1 启动 Jupyter Notebook 命令 行 示意 图 


1.3.8 Python 基本 用 法 


Python 是 一 种 面向 对 象 的 解释 型 高 级 编程 语言 。 很 多 时 候 ， 由 于 其 代码 具有 高 可 读 性 ， 
且 只 需要 数 行 代码 就 可 以 表达 复杂 的 功能 ， 使 Python 看 起 来 简直 和 伪 代 码 一 样 。 如 下 列 代码 
所 示 ， 为 Python 实现 经 典 的 快速 排序 算法 例子 。 


def quicksort( arr ) : 

if len(arr) <= 1: 

return arr 

pivot = arr[ len( arr )/ 2 ] 

left = [ x for x in arr if x < pivot ] 

middle = [ x for x in arr if x == pivot ] 

right = [ x for x in arr if x > pivot ] 

return quicksort( left ) + middle + quicksort( right ) 
print quicksort( [ 3,6,8,10,1,2,1 ] ) 
LH, 1, 2, 3, 6, 8, 101 











1.3.31 基本 数据 类 型 


和 大 多 数 编程 语言 一 样 ，Python 拥有 一 系列 的 基本 数据 类 型 ， 比 如 整 型 、 浮 点 型 、 布 尔 
型 和 字符 串 等 。 这 些 基本 数据 类 型 的 使 用 方式 和 其 他 语言 的 使 用 方式 类 似 。 





° XH oig h 





输出 : 

x=3 3 «type 'int> 
print x, type( x ) 

printx+1 # JH; 4 





N 


printx-1 4 W; 
printx*2 4 3& 
printx **2 # Ж; 
x+=1 

printx # 打印 "4"。 


x*=2 8 
printx # 打印 "8"。 


y=2.5 «type 'float'> 
print type( y ) # 打印 "<type 'float'>". 2.5 3.5 5.0 6.25 











Lola 


print y, y - l,y*2,y **2 
8 打印 "2.5 3.5 5.0 6.25"。 
# python 不 支持 (x+) 或 (x--) 运算 。 File "<ipython-input-6-a30cd8b33996>", line 2 


print y++ print у++ 


^ 


SyntaxError: invalid syntax 





° RAM 


Python 实现 了 所 有 的 布尔 逻辑 ， 但 使 用 的 是 英语 单词 Cand, or, not 和 хог) ， 而 不 是 我 
们 习惯 的 操作 符 《〈&& 和 | 等) 。 
输入 : Ган. 
«type 'bool'> 








t, f = True, False 


print type( t) # 打印 "<type 'bool'>". 


























printtandf # 逻辑 AND; | False 

printtorf # 逻辑 OR; True 

printnott # 逻辑 NOT; False 

printt!=f # 逻辑 ХОВ; | True 
‚он 

HA: 输出 : 

hello -'hello # 字符 串 可 以 使 用 单 引号 。 hello 5 world 


world="world" # 也 可 以 使 用 双 引 号 。 
print hello, len( hello ),world 




















hw=hello+''+world # 字符 串 拼 接 。 

printhw # 打印 "hello world". 

hw12 = '%s %s %d' % ( hello, world, 12) # 按 格式 输出 。 
printhw12 # 打印 "hello world 12". 


hello world 


hello world 12 





也 可 以 将 字符 串 当 作 是 一 个 对 象 ， 有 很 多 的 方法 ， 如 下 列 代码 所 示 。 




















输入 : 输出 : 
s= "hello" 
print s.capitalize( ) # 将 字符 串 首 字 母 大写 ; 打印 "Hello". Hello 
Print s.upper( ) # 将 字符 串 转换 成 大 写 ; 打印 "HELLO". HELLO 
print srjust(7) # 字符 串 向 右 对 齐 ， 使 用 空格 进行 占 位 ; 打印 " hello". hello 
print s.center( 7) # 字符 串 居 中 ， 使 用 空格 对 左右 进行 占 位 ， 打 印 " hello". hello 
print s.replace('I', (епу) # 使 用 子 串 代替 规定 处 字符 。 he(ell)(ell)o 
# 打印 "he(ell)(ell)o". 

print' wo rld'strip() # 删除 空白 字符 (开头 或 结尾 ) ; 打印 "wor ld". wo rid 

如 果 想 掌握 更 多 关于 字符 串 的 应 用 与 操作 , 有 兴趣 的 读者 可 以 访问 以 下 网 址 来 进行 学 习 : 


https://docs.python.org/2/library/stdtypes.html#string-methods。 
Python 有 4 种 容器 类 型 : 列表 (Lists)、 字 上 典 (Dictionaries)、 集 合 (Sets) 和 元 组 (Tuples)。 


1.3.3.2 ”列表 (Lists) 


在 Python 中 ， 列 表 相 当 于 数组 ， 但 是 列表 长 度 可 变 ， 且 能 包含 不 同类 型 元 素 。 








输入 : 输出 : 
xs-[3,1,2] # 创建 列表 。 [3, 1,2] 2 
print xs, xs[ 2 ] 

print xs[ -1 ] 2 

# 负 值 索 引 相当 于 从 列表 的 末端 进行 反 向 索引 ， 打 印 "2". 

xs[ 2 ] = оо’ # 列表 可 以 包含 不 同类 型 的 元 素 。 [3. 1, foo] 
print xs 

xs.append( "bar ) # 添加 新 元 素 到 列表 末端 。 [3, 1, 'foo', 'bar'] 
print xs 

х = xs.pop( ) # 移 除 列表 末端 元 素 。 bar [3, 1, 'foo'] 
print x, xs 





如 果 想 掌握 更 多 关于 列表 的 应 用 与 操作 ， 有 兴趣 的 读者 可 以 访问 以 下 网 址 来 进行 学 习 : 
https://docs.python.org/2/tutorial/datastructures.html#more-on-lists 


° WA (Slicing) 
为 了 同时 获取 列表 中 的 多 个 元 素 ，Python 提供 了 一 种 简洁 的 语法 去 访问 子 列表 ， 这 就 
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输入 : 输出 : 

nums = range( 5 ) # range 是 内 置 的 创建 整 型 列表 函数 。 

printnums # 打印 "[0, 1,2,3,4]". [0, 1, 2, 3, 4] 
printnums(2:4] 4 获取 索引 2-4 (排除 ) 的 子 列表 ; 打印 "[2, 3]"。 [2,3] 
printnums[ 2 :] # 获取 索引 2 到 末 的 子 列表 ; 打印 "D, 3, 4]"。 (2,3, 4] 

print nums[ : 2 ]# 获取 索引 开始 到 2 CHER) 的 子 列表 ; 打印 "[0, 1)". [0, 1] 

print nums[:] # 获取 整个 列表 ， 打 印 "[0, 1, 2, 3, 4]"。 [0, 1, 2, 3, 4] 
printnums(:-1] # 切片 也 可 以 使 用 负 号 索引 ; "打印 [0, 1,2, 3]"。 [0, 1, 2, 3] 
nums[2:4] =['s',' we! ]# 用 新 子 列表 替换 指定 索引 列表 中 的 子 列表 。 [0, 1, 's', ме, 4] 
print nums # 打印 "[0, 1, s, we, 4]"。 
































° IR (Loops) 
可 以 按 以 下 方式 遍历 列表 中 的 每 一 个 元 素 。 


CIN 
animals = ['cat', 'dog', 'monkey' ] cat 
for animal in animals: dog 


print animal monkey 





如 果 想 要 在 循环 体内 访问 每 个 元 素 的 指针 ， 可 以 使 用 内 署 的 枚 举 Сепитегаіе) 函数 ， 注 
意 : 起 始 ID 为 0。 








animals = [ 'cat', 'dog’, 'monkey' ] 
for idx, animal in enumerate( animals ): 


print '#%d: %s' % ( idx + 1, animal ) #3: monkey 








。 ”列表 解析 (List Comprehensions ) 


在 编程 的 时 候 ， 我 们 常常 要 将 列表 中 的 每 一 元 素 使 用 特定 的 表达 式 进行 转换 。 下 面 是 一 
个 简单 例子 ， 将 列表 中 的 每 个 元 素 转换 成 它 的 平方 。 








输入 : 输出 : 
питѕ = [0, 1, 2,3,4] [0, 1, 4, 9, 16] 
squares = [ ] 


for x in nums: 


squares.append( x ** 2 ) 








print squares 





也 可 以 使 用 更 简单 的 列表 解析 (List Comprehension) . 


深度 学 习 实战 
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输入 : 输出 : 
nums = [0, 1,2, 3,4] [0, 1,4,9, 16] 





squares = [ x ** 2 for x in пит ] 


print squares 





列表 解析 也 可 以 包含 条 件 语 句 。 


输入 : 输出 : 
nums = [ 0, 1, 2, 3, 4] [0,4,16] 


even squares = [ x ** 2 for x in nums if x % 2==0] 








print even_squares 











1.3.3.3 FË (Dictionaries) 


字典 用 来 存储 〈 键 ， 值 ) 对 ， 其 和 Java 中 的 Map 差不多 。 











输入 : 输出 : 
d= {'саї: ‘cute’, 'dog': 'furry } # 为 数据 创建 字典 。 cute 

print d[ 'cat' ] # 从 字典 中 获取 词 条 (entry); 打印 "cute". 

print'cat'in 4 # 检查 字典 中 是 否 有 给 定 键 值 (key); 打印 "True". True 
d['fish']='wet # 给 定 键 值 ， 创 建 词 条 。 wet 

print d[ 'fish' ] # 打印 "wet", 

print d.get( 'monkey', 'N/A' ) # 获取 字典 中 元 素 默 认 值 ， 打印 "N/A". N/A 

print d.get( 'fish','N/A') # 获取 字典 中 元 素 默认 值 ; 打印 "wet". Wet 

del d[ 'fish' ] # 从 字典 中 移 除 元 素 。 N/A 

print d.get('fish', 'N/A') 4 "fish" 不 再 是 字典 中 的 键 值 ， 打印 "N/A". 


字典 的 详细 用 法 可 以 访问 https://docs.python.org/2/library/stdtypes.html#dict 网 址 来 进行 学 习 。 
€ GEAR 





输入 : 输出 : 

d= {' 人 ': 2, Fi: 4, WAR: 8 } 猫 有 4 腿 

for animal in d: 蜘蛛 有 8 腿 
legs = d[ animal ] 人 有 2 fi 


print ' %s 有 %d 腿 ' % (animal, legs ) 


也 可 以 使 用 iteritems 方法 进行 迭代 。 














输入 : 输出 : 

а= ('A': 2, 9: 4, ЗИ: 8 } 猫 有 4 BE 

for animal, legs in d.iteritems( ): HA 8 腿 
print'%s 有 %d 腿 '% ( animal, legs ) 人 有 2 腿 
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° ”字典 解析 (Dictionary Comprehensions ) 
和 列表 解析 类 似 ， 字 典 解析 允许 你 轻松 地 构造 字典 ， 如 下 列 代码 所 示 。 





输入 : 输出 : 





nums=[0,1,2,3,4] {0:0,2:4,4:16} 
even num to square = í x: x ** 2 for x іп nums if x % 2 = 0 } 


print even_num_to_square 








1.3.34 ”集合 (Sets) 


集合 存放 着 无 序 的 不 同 元 素 ， 在 Python 中 ， 集 合 使 用 花 括号 表示 ， 如 果 将 一 个 序列 转换 
为 集合 ， 那 么 该 序列 的 重复 元 素 将 会 被 剔除 ， 并 且 原 有 的 顺序 也 将 被 打 散 。 














输入 : 输出 : 
animals = í 'cat', 'dog' } True 
print 'cat in animals # 检查 是 否 元 素 在 集合 中 ; 打印 "True"。 

print 'fish' in animals # 打印 "False". False 
animals.add( 'fish' ) # 向 集合 中 添加 元 素 。 True 
print 'fish in animals 

print len( animals) # 集合 中 的 元 素 个 数 ; 3 
animals.add( 'cat' )# 添加 一 个 存在 的 元 素 到 集合 中 ， 其 没有 变化 。 3 
print len( animals ) 

animals.remove( 'cat' ) # 从 集合 中 移 除 一 个 元 素 。 2 
print len( animals ) 


。 ”集合 循环 


虽然 集合 中 的 循环 语法 和 列表 中 的 一 样 ， 但 由 于 集合 是 无 序 的 ， 因 此 访问 集合 元 素 的 时 
候 ， 不 能 做 关于 顺序 的 假设 。 























输入 : 输出 : 

animals = { 'cat', 'dog’, 'fish' } #1: fish 

for idx, animal in enumerate( animals ): #2: dog 
print '#%d: %s' % ( idx + 1, animal ) #3: cat 





° ”集合 解析 (Set Comprehensions ) 
和 字典 、 列 表 一 样 ， 可 以 很 方便 地 使 用 集合 解析 构建 集合 。 


iA: 输出 : 
from math import sqrt зе [0, 1, 2, 3, 4, 5] ) 

















print { int( sqrt( x ) ) for x in range( 30 ) } 





深度 学 习 实战 
= 





1.3.3.5 元 组 CTuples) 


元 组 是 一 个 (不 可 改变 ) 有 序列 表 。 元 组 和 列表 在 很 多 方面 都 很 相似 ， 最 大 的 区 别 在 于 
元 组 可 以 像 字 典 一 样 使 用 键 / 值 对 ， 并 且 还 可 以 作为 集合 中 的 元 素 ， 而 列表 不 行 。 如 下 列 代码 
所 示 。 


输入 : 输出 : | 
# 通过 元 组 键 值 创建 字典 。 <type 'tuple> 

d= {(x,x+ 1 ):x forx іп гапре( 10) } 
t=(5,6) # 创建 元 组 。 

print type( t ) 

print d[ t ] 

print d[ (1,2)] 

















1.3.8.6 函数 (Functions) 


Python 使 用 关键 词 def 来 定义 函数 ， 如 下 列 代码 所 示 。 


输入 : 
def sign( x ): 


输出 : 


ifx > 0: 


H A = 


return 'IE' 
elif x <0: 
return ' 负 ! 
else: 
return ' 零 ' 
forxin[-1,0,1]: 








print sign( x ) 
也 经 常 使 用 可 选 参数 来 定义 函数 ， 如 下 列 代码 所 示 。 
输入 : 输出 : 
def hello( name, loud = False ): Hello, Bob! 
if loud: HELLO, FRED 


print 'HELLO, %s' % name.upper( ) 


else: 








print 'Hello, %s!' % name 
hello( 'Bob' ) 
hello( 'Fred', loud = True ) 
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1.3.3.7 类 (Classes) 


在 Python 中 ， 定 义 类 的 语法 很 直接 ， 如 下 列 代码 所 示 。 





输入 : 输出 : 
class Greeter: Hello, Fred 
# 构造 函数 。 HELLO, FRED! 


def init (self, name ): 
selfname=name # 创建 一 个 变量 实例 。 
# 实例 方法 。 
def greet( self, loud = False ): 
if loud: 
print 'HELLO, %s!' % self.name.upper( ) 
else: 
print 'Hello, %s' % self.name 
g=Greeter('Fred') # 创建 一 个 Greeter 类 实例 。 
g.greet( ) # 调用 实例 方法 ; 打印 "Hello, Fred". 
g.greet( loud = True ) # 调用 实例 方法 ; 打印 "HELLO, FRED!" 





1.3.4 NumPy 





NumPy 是 Python 中 用 于 科学 计算 的 核心 库 ， 其 提供 了 高 性 能 的 多 维 数组 对 象 及 相关 工 


具 ， 其 用 法 和 MATLAB 比较 相似 ， 有 具体 详情 可 以 参考 如 下 网 址 : 
http://wiki.scipy.org/NumPy_for_Matlab_Users. 
要 使 用 NumPy， 首 先 要 导入 numpy £4: import numpy as np 


1.3.4.1 数组 (Arrays) 


NumPy 中 的 数组 是 由 相同 数据 类 型 组 成 的 网 格 ， 可 以 通过 非 负 整 型 的 元 组 进行 访问 ， 数 
组 维度 数量 也 被 称 为 数组 的 秩 或 阶 Crank) ， 数 组 的 形状 (shape) 是 一 个 由 整数 构成 的 元 组 ， 
描述 数组 不 同 维度 上 的 大 小 。 我 们 可 以 从 Python 内 和 嵌 的 列表 中 创建 数组 ， 然 后 利用 方 括号 访 


问 其 中 的 元 素 ， 如 下 列 代码 所 示 。 














输入 : 输出 : 

a-npamay([1,2,3]) & 创建 秩 为 1 的 数组 。 <type numpy.ndarray> (3L,) 12 3 
print type( a ), a.shape, a[ 0], a[ 1], a[ 2] 

a[0]=5 # 改变 数组 元 素 。 [523] 

print a 

# 创建 秩 为 2 的 数组 。 [[123] 

b = nparray( [ [1,2,3 ],[4,5,6]]) [456] 

print b 








= 深度 学 习 实战 























print b.shape (2L, 3L) 
print b[ 0, 0], b[ 0, 1], b[ 1,0] 124 

NumPy 同样 提供 了 大 量 的 方法 创建 数组 ， 如 下 列 代码 所 示 。 

输出 : 

# 创建 2*2 [Ж Ж. [[0. 0] 
a=np.zeros( (2,2 )) [0. 0]] 
printa 
# 创建 各 元 素 值 为 1 的 192 矩阵 。 Че 23] 
b = np.ones( (1, 2) ) 
print b 
# 创建 各 元 素 值 为 7 的 2*2 矩阵 。 DU. 7] 
c — np.full( ( 2,2 ), 7, ) ET. 73] 
print c 
# 创建 3*3 的 单位 矩阵 。 [[1. 0. 0] 
d = np.eye( 3) [0. 1. 0] 
print d [0. 0. 1]] 
# 使 用 随机 数 创建 3*3 的 矩阵 。 [[1.31744138e-01 — 5.75103263e-02 8.14373864е-01] 
e = np.random.random( ( 3, 3 ) ) [6.38513903e-01 — 5.77462977e-01 5.26181855е-04] 
print e [8.57136438e-02 — 2.80388443e-01 6.97968482е-01]] 





° 数组 索引 


和 Python 列表 类 似 ，NumPy 数组 也 可 以 使 用 切片 语法 ， 因 为 数组 可 以 是 多 维 的 ， 所 以 必 
须 为 每 个 维度 指定 好 切片 ， 如 下 列 代码 所 示 。 

















输入 : 

import numpy as np [[t 2 3 4] 
# 创建 秩 为 2， 形 状 为 3,4) 的 数组 。 [5 6 7 8] 
а = пр.аггау( [ [ 1, 2,3, 4], [ 5, 6, 7, 8 ],[ 9, 10, 11, 12]]) [91011 12]] 
print a 

# 取出 第 147, 2 列 开始 的 ， 形 状 为 (2,2) 的 子 数组 。 [[23] 

# [[23] [67]] 

# [67]] 

b=a[:2,1:3] 

printb 





切取 的 子 数组 实际 上 是 原 数组 的 一 份 浅 备份 ， 因 此 修改 子 数组 ， 原 始 数组 也 将 受到 修改 ， 
如 下 列 代码 所 示 。 
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输入 : 输出 : 

print' 原 始 a:', a[ 0, 1] 原始 a: 2 
b[0,0]=77# b[ 0,0] 和 a[0, 1 ] 共 享 同 一 内 存 。 修改 b 后 的 a: 77 
print ' 修 改 b 后 的 a: ',а[0,1] 





也 可 以 混合 整数 索引 以 及 切片 索引 访问 数组 ， 但 是 这 会 生成 一 个 秩 少 于 原始 数组 的 子 数 
组 。 注意 这 和 MATLAB 处 理 的 数组 切片 有 些 不 同 ，NumPy 有 两 种 数组 切片 方式 ， 一 是 混合 
整数 索引 和 切片 ， 生 成 低 秩 子 数组 ， 二 是 仅 使 用 切片 ， 生 成 与 原始 数组 同 秩 的 子 数组 。 











输入 : 输出 : 

# 创建 形状 (3,4) 秩 为 2 的 numpy 数组 。 [[1 2 3 4] 
a= np.array( [ [ 1,2, 3,4], [ 5, 6, 7,8 ], [ 9, 10, 11,12]]) [5 6 7 8] 
printa [91011 12]] 


row rl =a[ 1, :] 4. 秩 为 1， 数组 a 的 第 二 行 子 数组 。 秩 为 1: [5678] (4L,) 
row_r2 =a[ 1 :2,:]# 秩 为 2， 数 组 a 的 第 二 行 子 数组 。 
row_r3=a[[1],:]# 秩 为 2， 数 组 a 的 第 二 行 子 数组 。 
print ' 秩 为 1: "row rl, row_rl.shape 
print ' 秩 为 2: том 13, row_r3.shape 秩 为 2: [[5678]](1L, 4L) 
# 作用 在 列 上 同样 适用 : 秩 为 1: [2 610](3L,) 
col_r1=a[ :, 1 ]# 秩 为 1， 数 组 a 的 第 二 列子 数组 。 
col 2-a[ 1 :2]# 秩 为 2， 数 组 a 的 第 二 列子 数组 。 
print ' 秩 为 1: 'col rl, col rl.shape 
print ' 秩 为 2:' 秩 为 2: 
print col_r2, col_r2.shape [[2] 
[6] 
[10] ] GL, 1L) 








° ASIN sl 


当 我 们 使 用 切片 索引 数组 时 ， 得 到 的 总 是 原 数 组 的 子 数 组 ， 而 整 型 数组 索引 允许 我 们 利 
用 其 他 数组 中 的 数据 构建 一 个 新 的 数组 。 如 下 列 代码 所 示 。 








输入 : 输出 : 
a=np.array([[1,2],[3,4],[5,6]]) 
# 整 型 数组 索引 示例 。 [145] 


# 返回 的 数组 形状 为 ( 3, )。 

printa[[0, 1,2], [0,1,0]] 

5 上 述 整 型 数组 索引 与 下 列 索引 相等 : [145] 
print np.array( [ a[ 0,0], a[ 1, 1], a[ 2,0] ]) 
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# 当 使 用 整 型 数组 索引 时 ， 可 以 重复 索引 同一 个 数组 元 素 : 
print af [0,01 [1,1]] 

# 上 述 整 型 数组 索引 等 于 下 列 索引 ， 

print np.array( [ a[ 0, 1 ], af 0,1] ]) 


整 型 数组 索引 的 一 个 小 技巧 是 从 矩阵 的 每 一 行 中 选择 或 改变 元 素 ， 如 下 列 代码 所 示 。 

















输入 : 输出 : 

# 创建 新 数组 用 于 选择 元 素 。 101 2 3] 

а = np.array( [ [ 1, 2, 3 ], [4, 5, 6 ], [7, 8,9 ], [ 10, 11,12]]) [4 5 6] 

print a [7 8 9] 
[101112]] 

# 创建 数组 索引 。 11.6 T7 И] 


b= np.array( [ 0, 2, 0,1] ) 
# 使 用 数组 b 中 的 索引 选择 矩阵 a 每 一 行 中 的 特定 元 素 。 
print a[ np.arange(4),b] # 打印 "[1 6 711]". 


# 使 用 数组 b 中 的 索引 改变 矩阵 a 每 一 行 中 的 特定 元 素 。 [p 2: 3] 
a[ np.arange( 4 ), b] + = 10 [4 5 16] 
print a 17 8 9] 





[10 2112] 
° 布尔 型 数组 索引 


布尔 型 索引 可 以 任意 挑选 数组 中 的 元 素 ， 这 种 类 型 索引 频繁 地 用 于 条 件 语句 下 的 元 素 选 
取 。 如 下 列 代码 所 示 。 





输出 : 

import numpy as np [[12] 

a= np.array( [ [ 1,2 ], [3,4], [5,1]]) B4 

print a [5 1]] 

bool idx=(a>2) [ [False False] 

# 寻找 大 于 2 的 数组 元 素 ， 返 回 相 同形 状 的 布尔 型 数组 ， [True True] 
# 其 每 个 元 素 为 a> 2 的 布尔 值 。 [True False]] 





print bool_idx 





# 我 们 可 以 使 用 布尔 数组 索引 去 构造 一 个 秩 为 1 的 数组 ， [345] 
# 其 元 素 与 布尔 数组 的 真 值 相对 应 。 

print a[ bool idx ] 

# 我 们 也 可 以 将 上 述 内 容 简 洁 地 用 一 行 语句 表达 : [345] 
print a[ a > 2] 











° ”数据 类 型 (Раа Types) 
NumPy 提供 了 大 量 的 数据 类 型 去 构造 数组 ，NumPy 会 尝试 猜测 你 创建 的 数组 的 数据 类 
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型 ， 但 构造 函数 的 数组 通常 也 可 选择 显 式 指明 其 数据 类 型 。 如 下 列 代码 所 示 。 





输入 : 输出 : 
x=nparray([1,2])# 让 numpy 自己 选择 数据 类 型 。 int32 float64 int64 
y-nparray( [1.0,2.0] )# it numpy 自己 选择 数据 类 型 。 

z=np.array( [ 1,2 ],dtype=np.int64 ) & 显 式 的 规定 数据 类 型 。 

print x.dtype, y.dtype, z.dtype 














更 多 有 关 数 据 类 型 详细 的 说 明 及 其 用 法 ， 有 兴趣 的 读者 可 以 访问 如 下 网 址 来 进行 学 习 : 
http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html . 


1.3.42 ”数组 运算 


数组 中 基本 的 数学 运算 操作 是 按 数组 元 素 进 行 的 ， 并 且 重 载 操作 以 及 函数 都 可 以 使 用 ， 
如 下 列 代码 所 示 。 











输入 : 输出 : 
x = nparray( [ [ 1, 2 ],[ 3, 4 ] ], dtype = np.float64 ) [[. 6. 8$] 
y = пр.аггау( [ [ 5, 6 ],[ 7,8 ] ], dtype = np.float64 ) [10. 12]] 
# 按 元 素 求 和 ; 以 下 两 种 方式 都 可 以 使 用 ; 
printx+y 
print np.add( x, y ) [[ 6 8] 
[10. 12]] 
# 按 元 素 相 减 ; [[4. 4] 
print x - y [4.4.]] 
print np.subtract( x, y ) [[-4. -4.] 
[4. 4.]] 
# 按 元 素 乘 ， [£ 5. 12] 
print x * y [21. 32]] 
print np.multiply( x, y ) [£ 5: 12] 
[21. 32]] 
# 按 元 素 除 ; [[0.2 0.33333333] 
print x / y [0.42857143 0.5 1] 
print np.divide( x, y ) [[0.2 0.33333333] 
[ 0.42857143 0.5 1] 
# 按 元 素 取 平 方 根 ; LET. 1.41421356] 
print np.sqrt( x ) [1.73205081 2. 1] 





注意 : 和 MATLAB 不 同 ，* 在 NumPy 中 是 按 元 素 乘 ， 而 在 MATLAB 中 是 矩阵 乘 。 在 
NumPy 中 我 们 使 用 dot 函数 计算 向 量 内 积 〈 点 积 ) 、 和 矩阵 乘 矩 阵 及 矩阵 乘 向 量 等 操作 。dot 
可 以 当 作 函数 在 NumPy 中 使 用 ， 也 可 作为 数组 对 象 的 实例 方法 ， 如 下 列 代码 所 示 。 




















х -nparray( [[1.2],[3.4]]) 
y = nparray( [[5.6 ][7,8]]) 
v = пр.аггау( [ 9, 10] ) 

w 7 nparray( [ 11, 12]) 

# 向 量 内 积 ， 都 将 生成 219。 


print v.dot( w ) 








print np.dot( v, w ) 219 
# 矩阵 / 向 量 乘积 ;都 将 生成 秩 为 1 的 数组 [ 29 67 ] 。 [29 67] 
print x.dot( v ) 











print np.dot( x, v ) [29 67] 
# 矩阵 / FEES; 都 将 生成 秩 为 2 的 数组 。 
#[[1922] [[19 22] 

# [4350]] [43 50]] 
print x.dot( y ) 















print np.dot( x, y ) [[19 22] 


[43 50] 


NumPy 还 提供 了 许多 有 用 的 数组 计算 函数 ， 其 中 最 常用 的 是 sum 函数 。 








х = nparray( [[1,2].[3.4]]) 
printnp.sum(x) # 计算 所 有 元 素 的 累加 和 ; 打印 "10"。 
print np.sum( x, axis = 0 ) # 计算 每 一 列 的 累加 和 ;打印 "[ 46]"。 
print np.sum(x, axis = 1 ) # 计算 每 一 行 的 累加 和 ; 打印 "[ 3 7]"。 





更 多 有 关 NumPy 的 数学 函数 的 使 用 ， 感 兴趣 的 读者 可 以 参考 如 下 网 址 来 进行 学 习 : 

http://docs.scipy.org/doc/numpy/reference/routines.math.html。 

除了 使 用 数组 进行 数学 计算 , 我 们 还 频繁 地 使 用 reshape 或 者 其 他 方法 操纵 数组 数据 。 例 
如 要 转 置 一 个 和 矩阵， 简单 地 使 用 数组 对 象 的 T 属 性 即 可 ， 如 下 列 代码 所 示 。 

















输入 : 输出 : 
print x [[12] 
34] 
print x.T LE 3] 
[241] 
v=np.array( [ [ 1,2,3] ]) [0 23]] 
rint v 
print v.T [[1] 
[2] 





3 
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1.3.4.3 Г (Broadcasting? 


广播 提供 了 强大 的 机 制 ， 允 许 NumPy 在 不 同形 状 的 数组 中 执行 数学 操作 。 我 们 经 常会 i 
到 小 数组 和 大 数组 相 乘 的 情况 ， 比 如 图 片 数据 矩阵 与 权重 和 矩阵。 使 用 广播 机 制 可 以 提高 代码 
质量 及 运算 效率 。 例 如 要 在 矩阵 的 每 一 行 中 都 加 上 一 个 常数 向 量 ， 可 以 按 如 下 代码 进行 操作 。 








iA: 输出 : 

# 矩阵 x 的 每 一 行 加 上 向 量 v， 将 结果 存储 在 矩阵 y 中 。 [[2 2 4] 
х = пр.агтау( [ [ 1,2, 3], [4, 5.6], [7,8 9], [10,11,12]]) [5 5 7] 
v = nparray( [ 1,0,1]) [8 810] 
y =np.empty_like( x ) & 创建 一 个 和 x 形状 相同 的 空 矩阵 。 [11 11 13]] 


# 使 用 显 式 循环 完成 上 述 操作 。 

for i in range( 4 ): 
y[i,:]=x[i,:]+ v 

print y 











这 样 操作 是 可 行 的 , (RARE Fe X ТУУГА, 在 Python 中 计算 显 式 循环 就 将 变 得 非常 缓慢 。 
其 实 将 向 量 v 加 到 矩阵 区 的 每 一 行 就 相当 于 将 向 量 "拷贝 多 次 垂直 堆 稚 成 矩阵 VV, ҖАН 
BE X GABE VV 进行 按 元 素 求 和 操作 ， 也 可 以 实现 同样 的 结果 ， 如 下 列 代码 所 示 。 





输入 : 输出 : 
vv =np.tile( v, (4, 1) ) & 拷贝 4 次 向 量 v， 然 后 将 其 堆 释 起 来 。 [[101] 
print уу # 打印 "[[101] [101] 

# [101] [10 1] 

# [101] [101]] 

# [101]]" 
y=x+vv # EBE x 和 和 矩阵 vv 按 元 素 相 加 。 [[2 2 4] 
print y [s 7] 

[8 8 10] 


[1111 13]] 





NumPy 广播 机 制 允许 我 们 在 不 创建 多 次 向 量 "备份 的 情况 下 执行 该 计算 ， 如 下 列 代 码 所 示 。 














输入 : 输出 : 
import numpy as np DEZ: 2 4] 
# KEPE x 的 每 一 行 加 上 向 量 v， 将 结果 存储 在 矩阵 y 中 。 i5 5 3] 
x = np.array( [ [ 1,2, 3 ], [4, 5.6], [7,8 9], [ 10, 11,12] ] ) [8 810] 
v = nparray( [ 1, 0, 1 ]) [11 11 13]] 
y=x+v # 使 用 广播 将 v 加 到 和 矩阵 的 每 一 行 上 。 

print y 





HT) SRLS DS, BE X HERAA. v 的 形状 为 (3,)， 表 达 式 y=x+v 依然 可 以 
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执行 ， 这 就 好 像 将 v 拷贝 重 塑 为 (4.3) 的 矩阵 ， 然 后 进行 按 元 素 相 加 。 对 两 个 数组 使 用 广播 机 
制 要 遵守 下 列 规则 。 

1. 如 果 数 组 的 秩 不 同 ， 将 秩 较 小 的 数组 进行 扩展 ， 直 到 两 个 数组 的 尺寸 长 度 都 一 样 。 

2. 如 果 两 个 数组 在 某 个 维度 上 的 长 度 是 相同 的 , 或 者 其 中 一 个 数组 在 该 维度 上 的 长 度 为 
1， 那 么 我 们 就 说 这 两 个 数组 在 该 维度 上 是 相 容 的 。 

3. 如 果 两 个 数组 在 所 有 维度 上 都 是 相 容 的 ， 它 们 就 能 使 用 广播 。 

4. 广播 之 后 ， 两 个 数组 的 尺寸 将 和 较 大 的 数组 尺寸 一 样 。 

5. 在 任何 一 个 维度 上 ， 如 果 一 个 数组 的 长 度 为 !1， 另 一 个 数组 长 度 大 于 1， 那 么 在 该 维 
度 上 ， 就 好 像 是 对 第 一 个 数组 进行 了 复制 。 

如 果 感 觉 没有 解释 清楚 ， 更 多 关于 广播 的 详细 说 明文 档 可 以 参考 以 下 网 址 : 

http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html 或 者 更 具体 的 解释 可 以 访问 
http://wiki.scipy.org/EricsBroadcastingDoc 网 址 。 

支持 广播 机 制 的 函数 也 被 称 为 通用 函数 Universal Functions) ， 可 以 访问 
http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs 网 址 来 查看 所 有 的 通用 函 
数 。 以 下 是 广播 的 一 些 应 用 。 








输入 : 输出 : 

# 计算 向 量 外 积 。 [[4 5] 

у=пр.атау( [1,2,3]) #v 形状 (3, )。 [810] 

w=np.array( [4,5]) # w 形状 ( 2, )。 [1215]] 


# 要 计算 外 积 ， 我们 首先 要 重 塑 v 为 一 列 ( 3, )， 然 后 将 其 与 w(2, ) 相 乘 ， 
# 输出 一 个 形状 为 (3,2) 的 矩阵 ， 其 就 是 v 与 w 的 外 积 。 
print np.reshape(v, (3, 1)) * w 


# 将 向 量 加 到 矩阵 中 的 每 一 行 。 [[246] 

х =np.array( [[ 1,2,3 ],[4,5,6]]) [579]] 
#x 形状 ( 2,3), v 形状 ( 3, )， 广 播 之 后 的 形状 (2, 3), 

print x+ v 

3 将 向 量 加 到 矩阵 的 每 一 列 。x 形状 ( 2, 3 )，w 形状 (2, )， [5 6 7] 
3 如 果 我 们 将 x 进行 转 置 ， 其 形状 就 被 重 塑 为 (3,2 )， [91011]] 


# 然后 将 其 与 w 进行 广播 ， 就 可 以 生成 形状 为 ( 3, 2 ) 的 矩阵 ; 
# 最 后 再 将 结果 进行 转 置 ， 就 可 以 得 到 形状 为 (2, 3 ) 的 矩阵 ; 

# 这 个 矩阵 就 是 将 向 量 w 加 到 和 矩阵 x 的 每 一 列 所 得 到 的 结果 。 
print ( x. T + w ).T 


# 另 一 种 更 简单 的 方法 是 将 w 重 塑 为 形状 为 ( 2,1 ) 的 行 向 量 ; H5 6 7] 
# 然后 直接 与 x 进行 广播 就 可 产生 相同 的 结果 ， [91011]] 


# 注意 (2, ) 表 示 的 是 秩 为 1 的 向 量 ，( 2,1 ) 表 示 的 是 秩 为 2 的 矩阵 。 
print x + np.reshape( w, ( 2, 1 )) 














# 矩阵 各 元 素 乘 以 一 个 常数 ， [[2 4 6] 
# Xx 形 状 (2,3 )，Numpy 将 标量 作为 形状 为 ( ) 的 数组 进行 处 理 ; [810 12]] 
print x * 2 
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通过 上 面 内 容 的 介绍 ， 发 现 广播 可 以 使 代码 简洁 而 高 效 ， 因 此 应 该 尽 可 能 地 使 用 广播 操 
作 。 以 上 仅仅 是 NumPy 一 些 重要 的 用 法 ， 但 其 功能 远 不 只 这 些 。 详 细 的 文档 请 参考 网 址 : 
http://docs.scipy.org/doc/numpy/reference/. 





1.3.5 Matplotlib 


Matplotlib 是 一 个 绘图 工具 库 。 下 面 我 们 简单 地 介绍 下 matplotlib.pyplot 模块 ， 其 用 法 和 
MATLAB 相似 。 





import matplotlib.pyplot as plt 
# 使 用 以 下 IPython 命令 行 ， 可 以 使 得 绘图 结果 嵌入 到 notebook 中 。 


%matplotlib inline 





e 绘制 (Plotting ) 


Matplotlib 最 重要 的 函数 就 是 绘制 函数 plot， 使 用 plot 函数 可 以 绘制 2D 数据 ， 如 下 列 代 
码 所 示 ， 绘 制 好 的 图 形 如 图 1-2 所 示 。 





# 使 用 sin 三 角 函 数 计算 x 与 y 的 坐标 点 。 
x = np.arange( 0, 3 * np.pi, 0.1 ) 


y =np.sin( x ) 
# 使 用 plot 函数 绘制 坐标 点 。 
plt.plot( x, y ) 














图 1-2 使 用 plot 函数 绘制 图 形 
添加 标题 、 说 明 及 坐标 轴 标 记 到 图 表 中 ， 如 下 列 代码 所 示 ， 绘 制 好 的 图 形 如 图 1-3 所 示 。 


x = np.arange( 0, 3 * np.pi, 0.1 ) 
y_sin = np.sin( x ) 


y_cos = np.cos( x ) 


# 使 用 plot 函数 绘制 坐标 点 。 
plt.plot( x, y sin ) 


plt.plot( x, y cos ) 
plt.xlabel( 'x axis label' ) 
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plt.ylabel( 'y axis label' ) 
plt.title( 'Sine and Cosine’ ) 
plt.legend( [ 'Sine', 'Cosine' ] ) 





Sine and Cosine 
10 





0.5} 


0.0 


y axis label 











x axis label 
1-3 ”添加 标题 、 说 明 与 坐标 轴 标记 
e + (Subplots ) 


还 可 以 使 用 subplot 函数 在 一 幅 图 中 绘制 不 同 的 子 图 ， 如 下 列 代码 所 示 ， 绘 制 的 子 图 如 图 
1-4 所 示 。 





# 使 用 sin 以 及 cos 函数 计算 x 与 y 的 坐标 点 。 
x = np.arange( 0, 3 * np.pi, 0.1 ) 


y_sin = np.sin( x ) 

y. €os = np.cos( x ) 

# 设置 子 图 网 格 ， 其 高 为 2， 宽 为 1。 
# 设置 使 用 第 一 张 子 图 。 
plt.subplot( 2, 1,1) 

# 绘制 第 一 张 子 图 。 

plt.plot( x, y_sin ) 

plt.title( 'Sine' ) 

# 设置 使 用 第 二 张 子 图 ， 并 绘制 。 
plt.subplot( 2, 1,2 ) 

plt.plot( x, y_cos ) 

plt.title( 'Cosine' ) 

# 显示 图 表 。 

plt.show( ) 
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14 绘制 子 图 


更 多 关于 Matplotlib 的 内 容 及 其 使 用 ， 感 兴趣 的 读者 可 以 访问 以 下 网 址 : 
http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.subplot 来 进行 学 习 。 
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深度 学 习 只 是 机 器 学 习 的 重要 分 支 之 一 。 为 了 更 好 地 理解 深度 学 习 ， 我 们 首先 简单 介绍 
一 些 重要 的 机 器 学 习 原 理 与 思想 ， 而 这 些 内 容 也 将 贯穿 我 们 整个 深度 学 习 之 旅 。 该 章节 内 容 
是 不 全 面 的 ， 但 这 些 内 容 全 都 和 深度 学 习 内 容 高 度 相 关 。 因 此 ， 对 于 想 要 了 解 更 全 面 的 机 器 
学 习 知 识 的 读者 ， 我 们 强烈 推荐 周志 华 老师 所 著 的 《机 器 学 习 》 由 一 书 ， 该 书 是 国内 机 器 学 
习 的 殿堂 级 著作 ， 并 且 主 要 针对 中 国 读者 ， 读 者 会 少 一 些 对 于 翻译 的 不 适应 。 国 外 也 有 许多 
经 典 的 机 器 学 习 著 作 , 如 Tom Mitchell 的 Machine Learning Pl, Bishop 的 Pattern Recognition and 
Machine Learning ШЕП Murphy 的 Machine learning: A Probabilistic Perspective 中， 这 些 都 是 非 
常 经 典 的 机 器 学 习 教材 。 如果 你 已 经 非常 熟悉 机 器 学 习 的 基础 内 容 ， 可 以 轻松 地 跳 过 该 章节 ， 
仅仅 完成 2.6 节 的 Softmax 编码 练习 即 可 。 但 话 又 说 回来 ， 再 看 看 原本 已 经 非常 熟悉 的 内 容 ， 
是 一 件 愉快 身心 的 事情 ， 为 什么 不 让 自己 开心 一 下 呢 ? 

机 器 学 习 允 许 我 们 去 处 理 那 些 我 们 很 难 通过 直接 编程 实现 的 任务 。“ 一 花 一 世界 ， 一 叶 
一 著 提 ”， 我 们 以 一 种 更 加 哲学 略 带 禅 意 的 观点 来 看 ， 要 理解 并 研究 机 器 学 习 ， 其 本 质 上 也 
是 对 我 们 自身 潜在 智能 行为 的 深入 理解 。 而 理解 这 些 智能 行为 ， 最 好 的 教材 就 是 我 们 自己 。 
我 们 就 是 自己 的 老师 、 教 材 及 学 生 。 因 此 在 学 习 机 器 学 习 算法 时 ， 充 分 发 挥 想 象 力 ， 想 想 自 
己 的 行为 ， 或 许可 以 给 你 带 来 许多 窖 然 开 朗 的 欣喜 。 

要 让 机 器 能 够 学 习 ， 那 首先 得 知道 什么 是 机 器 学 习 。 因 此 在 2.1 节 中 ， 我 们 将 介绍 一 些 
机 器 学 习 任务 ， 讲 解 如 何 去 度 量 机 器 学 习 算 法 性 能 的 好 坏 。 

机 器 学 习 的 目标 是 什么 呢 ? 那 就 是 降低 代价 函数 。 在 2.2 节 中 ， 我 们 将 讲解 什么 是 代价 
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函数 〈 损 失 函 数 ) ， 而 本 章 我 们 将 介绍 最 具 代表 性 的 均 方 误差 和 极 大 似 然 两 种 代价 函数 。 

有 了 目的 ， 接 下 来 如 何 去 做 才 是 关键 。 在 23 节 中 ， 我 们 将 讲解 如 何 去 降 低 代 价 函 数 ， 
我 们 只 使 用 一 招 ， 也 是 大 家 在 高 中 就 非常 熟悉 的 一 招 ， 那 就 是 函数 求 导 。 
生活 中 是 否 有 很 多 事情 总 觉得 “做 得 太 少 ”， 总 有 种 “如 果 当 初 多 学 些 ， 当 初 多 考虑 些 ， 
那 结 果 可 能 会 更 好 ”的 错觉 ， 而 又 有 很 多 事情 觉得 已 经 “做 得 太 多 ”， 总 会 郁闷 于 “明明 万 
事 巨细 了 ， 明 明 每 一 个 细节 都 考虑 了 ， 但 结果 和 自己 的 预期 却 相差 其 还”。 你 有 这 些 问题 ， 
当然 机 器 也 有 ， 有 些 人 因为 过 于 电 钝 而 变 得 “思春 ”， 有 些 人 因为 过 于 “精明 ”而 看 不 开 ， 
所 谓 大 学 之 道 在 于 中 庸 。 在 24 节 中 ， 我 们 将 讲解 过 拟 合 与 从 拟 合 问题 ， 聊 聊 机 器 也 会 过 于 
“笨拙 ”或 者 过 于 “聪明 ”， 并 如 何 “中 庸 ” 地 解决 这 些 问 题 。 

你 是 否 痛恨 考试 ， 听 到 考试 就 会 瑟瑟 发 拌 ， 但 为 什么 要 考试 呢 ? 生活 其 实 就 是 一 场 一 场 
的 考试 ， 只 不 过 并 不 是 每 次 都 用 试卷 和 分 数 去 衡量 你 的 好 坏 ， 今 天 你 期 望 着 考试 的 结束 ， 明 
天 或 许 就 被 各 种 业绩 考核 压 得 喘 不 过 气 来 。 如 果 考 试 是 “结束 ”， 那 么 在 “大 审判 ”来 临 前 
我 们 能 做 些 什么 呢 ? 在 2.5 节 中 ， 我 们 将 讲解 如 何在 “考试 ”前 做 些 “ 自 我 测试 ”， 这 些 “ 测 
试 ”我 们 称 为 验证 集 ， 我 们 将 调整 超 参 数 ， 然 后 试图 使 测试 成 绩 更 好 ， 从 而 期 望 考试 成 绩 也 
能 更 好 。 

道理 我 都 慌 ， 就 是 不 会 做 。 但 别 怕 ， 在 2.6 节 中 ， 我 们 活动 一 下 手指 ， 再 结合 整 章 的 知 
识 ， 一 步 一 步 地 完成 Softmax 多 分 类 图 像 任务 ， 可 以 让 你 信心 倍增 。 


2.1 学 习 算 法 


机 器 学 习 算法 可 以 简单 理解 为 是 一 种 能 够 从 数据 中 学 习 的 算法 。 那 么 什么 是 学 习 呢 ? 我 
们 使 用 Mitchell (1997) 提出 的 定义 : “对 于 某 类 任务 T (Task) 和 性 能 度量 P (Performance 
Measure) ， 如 果 一 个 计算 机 程序 在 某 项 任务 T 中 ， 其 性 能 P 能 够 随 着 经 验 E (Experience) 
而 自我 完善 ， 那 么 我 们 就 称 这 个 计算 机 程序 在 从 经 验 中 学 习 。” 

如 果 你 对 于 以 上 的 定义 有 些 不 太 理解 , 没关系, 那 本 来 也 只 是 让 你 去 大 体 了 解 一 下 而 已 ， 
其 实学 习 就 是 一 个 逐渐 优化 的 过 程 ， 我 们 需要 不 断 地 体会 与 领悟 。 讲 一 个 少年 小 飞 的 故事 
小 飞 和 小 鱼 是 男女 朋友 ， 关 系 还 算 融 洽 ， 经 常会 一 起 吃饭 。 每 次 约 好 一 起 去 吃饭 ， 小 飞 都 会 
兴 冲 冲 地 跑 去 等 小 鱼 ， 但 每 次 都 要 等 很 入， 小 飞 也 不 敢 抱怨 ， 但 也 不 想 傻 傻 地 站 在 楼 下 ， 两 
手 插 在 口袋 里 等 待 ， 于 是 他 就 开始 了 “学 习 ”。 小 飞 的 任务 是 “缩小 等 待 的 时 间 ”， 于 是 在 
约 好 吃饭 后 就 心慌 慌 地 等 待 了 5 分 钟 后 再 出 门 ， 结 果 还 是 在 楼 下 等 了 15 分钟。 下 一 次 小 飞 就 
犹 殉 地 等 待 10 分 钟 后 再 出 门 ， 还 是 多 等 了 5 分 钟 。 再 一 次 ， 小 飞 就 等 了 15 分 钟 后 再 出 门 
结果 居然 还 是 等 了 10 分 钟 。 后 来 ， 小 飞 果断 地 等 了 25 分 钟 后 再 出 门 ， 结 果 就 被 小 鱼 胖 接 了 
- 顿 …… 从 以 上 的 小 飞 悲惨 故事 中 ， 你 是 否 对 于 任务 、 性 能 度量 和 经 验 有 了 点 感悟 。 如 果 还 
没有 ， 没 关系 ， 旅 程 还 长 ， 你 总 会 知道 的 。 还 有 一 点 需要 说 明 就 是 小 飞 的 学 习 是 无 用 的 ， 因 
为 学 习 的 前 提 是 要 有 潜在 规律 ， 老 实地 在 楼 下 等 待 虽 然 是 万 全 之 策 ， 但 是 小 鱼 出 门 时 间 是 没 
有 规律 的 。 
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学 习 任 务 


我 们 相对 正式 地 去 定义 “任务 ”一 词 ， 但 要 记 住 ， 学 习 并 不 是 任务 本 身 。 学 习 指 的 是 获 
得 执行 任务 的 能 力 。 比 如 ， 我 们 想 要 机 器 人 行走 ， 那 么 行走 就 是 任务 ， 我 们 可 以 让 机 器 人 学 
习 行 走 ， 也 可 以 直接 编程 让 机 器 人 行走 。 

机 器 学 习 任 务 通常 被 描述 为 一 个 “范例 ”或 “数据 ”， 然 后 研究 机 器 学 习 系 统 怎么 样 去 
处 理 这 个 “范例 ”或 “数据 ”。 一 条 数据 是 一 个 特征 集合 ， 这 些 特征 度量 了 需要 机 器 学 习 系 
统 处 理 的 事情 。 我 们 通常 将 一 条 数据 表示 为 一 个 n 维 实数 向 量 xeER， 而 是 该 向 量 的 一 个 
特征 。 如 果 读 者 不 太 理解 向 量 ， 可 以 把 向 量 简单 地 理解 成 一 维 数组 即 可 ， 而 该 数组 中 的 每 一 
元 素 就 是 一 个 特征 。 例 如 ， 我 们 想 要 完成 图 像 识别 任务 ， 那 一 张 图 片 就 是 一 条 数据 ， 图 片 中 
的 每 一 个 像素 就 是 一 个 特征 。 机 器 学 习 可 以 解决 许多 任务 ， 接 下 来 我 们 列举 一 些 最 常见 的 机 
器 学 习 任务 。 





分 类 (Classification); 分 类 任务 是 最 常见 的 机 器 学 习 任务 之 一 ， 其 目的 是 让 程序 判 
断 一 组 数据 应 该 属于 哪些 类 别 , 例如 对 象 识别 任务 和 语音 识别 任务 等 。 可 以 说 与 “ 识 
别 ” 一 词 相关 的 任务 ， 很 大 程度 上 都 属于 分 类 任务 。 要 解决 这 类 问题 ， 学 习 算 法 通 
常 要 执行 一 个 函数 [/， 该 函数 将 数据 映射 到 一 个 类 别 的 空间 ， 形 式 化 表示 为 
SiR fl k} 也 可 以 使 用 y= f(x) 表示 该 映射 关系 ， 其 中 输入 数据 表示 为 向 量 x， 
输出 为 一 个 整数 值 ， 表 示 分 类 代号 。 但 有 时 我 们 并 不 输出 一 个 离散 的 了 值 ， 而 会 
输出 实 值 概率 分 布 。 比 如 ， 要 判断 一 封 邮件 是 否 是 垃圾 邮件 ， 这 是 一 个 典型 的 二 分 
类 任务 ,输出 “1” 表 示 该 邮件 为 垃圾 邮件 ， 输 出 “0” 表 示 该 邮件 为 正常 邮件 ， 但 
也 可 以 输出 “0.8”， 表 示 为 该 邮件 为 垃圾 邮件 的 概率 为 0.8. 
3 (Regression): 回归 任务 就 是 要 求 程序 根据 输入 数据 来 预测 一 个 数值 ， 比 如 : 
股市 预测 任务 和 天 气 预测 任务 等 。 为 了 解决 这 类 问题 ， 学 习 算 法 需要 将 n 维特 征 映 
射 到 一 个 实数 空间 ， 表 示 为 f 及 '-R， 除 了 输出 格式 的 不 同 ， 这 类 任务 和 分 类 任务 
没有 本 质 区 别 。 
机 器 翻译 ( Machine translation ): 该 任务 是 深度 学 习 领 域 中 最 激动 人 心 的 任务 之 一 ， 
目前 深度 学 习 在 图 像 识别 领域 取得 了 重大 突破 ， 但 很 多 学 者 认为 视觉 虽然 非常 复 
杂 ， 但 这 是 大 多 数 动物 都 具有 的 基础 性 能 力 。 可 是 语言 不 一 样 ， 语 言 是 人 这 一 类 比 
较 高 级 的 生物 才 有 具有 的 能 力 ， 因 此 有 人 断言 ， 深 度 学 习 很 难 在 自然 语言 处 理 领 域 取 
得 较 大 突破 。 深 度 学 习 在 自然 语言 处 理 领 域 的 突破 ， 造 成 了 深度 学 习 研 究 者 与 自然 
语言 处 理 研 究 者 的 激烈 讨论 ， 有 时 甚至 恶化 到 互相 排斥 的 冲突 ， 但 在 噶 杂 之 下 ， 也 
不 断 地 激发 人 们 去 深思 “智能 ”的 内 涵 。 在 机 器 翻译 任务 中 ， 输 入 的 数据 是 由 序列 
信号 组 成 的 语言 构成 ， 计 算 机 程序 需要 将 该 组 序列 转换 成 另 一 种 语言 序列 信号 ， 比 
如 我 们 将 英语 转换 为 中 文 。 这 种 转换 可 以 是 文本 转换 ， 也 可 以 是 音频 的 转换 。 
结构 化 输出 (Structured output): 结构 化 输出 是 指 我 们 的 输出 结果 为 一 个 向 量 , 这 
是 一 类 宽泛 的 任务 ,前面 提 到 的 机 器 翻译 就 属于 其 中 。 图 2-1 为 Google 做 的 一 项 融 
合 图 像 识别 与 机 器 翻译 的 图 像 说 明 应 用 ， 该 应 用 在 网 络 的 前 几 层 使 用 着 积 神经 网 络 
提取 图 像 特征 ， 然 后 再 将 这 些 特征 输入 进 循环 神经 网 络 ， 将 图 像 特征 转换 为 文字 信 
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号 输出 。 其 输入 为 一 张 图 片 ， 而 输出 为 图 片 的 文字 描述 。 

° 出 常 检测 (Anomaly detection): 生活 中 有 很 多 事情 并 不 常见 ， 但 我 们 却 很 担心 这 
种 小 概率 事件 的 发 生 ， 异 常 检测 就 是 用 程序 检测 这 些 离 群 数据 。 比 如 : 金融 领域 中 
信用 卡其 骗 越 来 越 常 见 ， 由 此 造成 的 损失 一 向 难以 估计 。 这 些 欺 诈 行为 非常 严重 地 
扰乱 了 正常 的 市 场 经 济 秩序 ， 同 时 也 损害 了 公司 以 及 诚信 消费 者 的 切身 利益 。 这 类 
任务 的 困难 在 于 异常 数据 相对 正常 数据 而 言 太 少 ， 甚 至 有 时 还 需要 解决 未 曾 发 生 过 
的 状况 。 

° Ж (Denoising ): 在 机 器 学 习 中 ， 我 们 总 是 假定 已 知 数据 和 未 知 数据 是 相似 的 ， 
我 们 在 已 知 数据 中 找寻 各 种 规律 、 各 种 模式 ， 然 后 将 已 知 数据 中 学 习 到 的 模式 应 用 
到 未 知 数据 中 。 但 在 某 种 程度 上 ， 其 实 是 在 “自欺欺人 ”， 因 为 已 知 数据 和 未 知 数 
据 之 间 是 有 骂 声 的 ， 这 些 噪声 造成 了 实验 结果 和 实际 结果 的 误差 。 机 器 学 习 的 一 个 
重要 研究 方向 就 是 让 机 器 拥有 强大 的 抗 噪声 能 力 去 对 抗 这 些 误差 。 为 了 获得 这 种 健 
壮 性 ,我们 在 数据 中 加 入 一 些 品 声学 习 ， 从 “污浊 ”的 数据 中 还 原 “和 干净” 的 数据 ， 
从 而 期 望 学 习 模 型 能 够 学 习 到 更 强 的 抗 噪 能 力 。 

以 上 介绍 的 仅仅 是 机 器 学 习 任 务 中 的 沧海 一 票 , 我 们 只 列举 了 一 些 常见 的 机 器 学 习 任 务 。 


其 实说 到 底 ， 机 器 学 习 就 是 试图 替代 或 辅助 人 的 智能 行为 ， 或 许 人 的 智能 所 触及 之 处 ， 都 将 
是 机 器 学 习 努 力 的 方向 。 





一 个 小 女孩 抱 着 泰 迪 熊 坐 在 床上 一 群 人 坐 在 船 里 


图 2-1 图 片 说 明 应 用 示例 
2.1.2 ”性 能 度量 


为 了 评估 机 器 学 习 算法 在 某 项 任务 中 的 好 坏 ， 我 们 就 必须 设计 方法 去 量化 其 性 能 。 比 如 
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在 分 类 任务 中 ， 我 们 经 常 衡 量 模型 的 精度 (accuracy) 。 精 度 其 实 就 是 正确 分 类 数据 与 全 部 分 
类 数据 的 比值 。 与 之 相对 应 ， 我 们 去 测量 错误 分 类 数据 在 全 部 数据 中 的 比例 ， 就 将 其 称 之 为 
错误 率 〈errorrate) 。 我 们 也 经 常 将 错误 率 称 为 0-1 损失 期 望 。 在 0-1 损失 中 ， 我 们 将 分 类 错 
误 的 数据 记 为 1， 而 分 类 正确 的 数据 就 记 为 0， 累 加 错误 分 类 数据 之 后 ， 再 除 以 全 部 的 分 类 数 
据 ， 就 得 到 了 0-1 损失 期 望 值 。 

机 器 学 习 算 法 是 要 在 实际 环境 中 运行 的 ， 也 就 是 说 ， 机 器 学 习 所 面临 的 数据 是 未 知 的 。 
就 像 我 们 人 一 样 ， 学 得 再 多 ， 也 只 是 纸上谈兵 ， 实 践 才 能 出 真知 。 但 未 来 总 是 复杂 多 变 的 ， 
庄子 曾 说 过 “者 生 也 有 涯 ， 而 知 也 无 涯 ， 以 有 涯 随 无 涯 ， 殉 已 。” 那 我 们 又 怎样 固执 地 从 已 
知 中 ， 头 破 血 流 地 去 追寻 未 知 呢 ? 因此 我 们 需要 “ 假 造 ” 一 些 未 知 数据 ， 我 们 称 之 为 测试 数 
FER (test set of data) ， 我 们 将 训练 好 的 机 器 学 习 算 法 拿 到 这 些 测试 数据 集 上 进行 性 能 测量 ， 
然后 我 们 就 “ 自 其 其 人 ”地 宣称 我 们 设计 的 算法 如 何 的 好 。 测 试 数据 其 实 也 是 已 知 数据 的 一 
部 分 ， 只 是 这 部 分 数据 我 们 会 密封 起 来 ， 只 在 最 终 的 性 能 测量 时 才 使 用 。 如 果 拿 课程 学 习作 
为 类 比 ， 屠 平时 自己 做 的 练习 题 或 家 庭 作业 就 是 我 们 的 训练 数据 (training set of data) ， 而 老 
师 组 织 的 月 考 、 期 中 考 ， 我 们 也 称 为 验证 数据 〈 在 本 章 2.5 节 中 详细 描述 ) ， 最 后 参加 的 期 
末 考 试 我 们 就 称 之 为 测试 数据 。 这 三 部 分 数据 全 是 已 有 的 数据 ， 其 中 训练 数据 只 用 来 训练 ， 
学 生 《〈 学 习 算 法 ) 的 目标 就 是 在 这 部 分 数据 上 不 断 提高 性 能 ， 而 老师 (算法 调整 人 员 ) 会 使 
用 验证 数据 监控 学 生 的 学 习 情况 ， 然 后 去 调整 学 生 的 学 习 方 式 。 当 老师 认为 该 学 生 已 经 无 法 
再 提高 时 ， 就 使 用 测试 数据 模拟 未 知 数据 对 学 生 进行 最 后 的 性 能 测试 。 


. 查 全 率 与 查 准 率 


萌 误 率 和 精度 是 最 常用 的 度量 方式 ， 但 在 特定 的 任务 中 ， 我 们 还 需要 一 些 额 外 的 度量 方 
式 。 比 如 进行 信息 检索 时 ， 我 们 经 常 需 要 关心 “检索 的 信息 中 有 多 少 是 用 户 感 兴趣 的 ”以 及 
“用 户 感 兴趣 的 信息 有 多 少 被 检索 出 来 了 ”这 两 类 问题 , 而 此 时 , 我 们 引入 查 准 率 (precision) 
SRA (recall) 。 

为 了 更 好 地 介绍 查 准 率 与 查 全 率 ， 以 二 分 类 问题 为 例 ， 我 们 需要 将 分 类 器 预测 结果 分 为 
以 下 4 种 情况 。 

(1) 真正 例 〈True Positive, TP) ， 分 类 器 预测 1， 真 实 类 标 为 “1” 的 分 类 数据 。 

(2) 假 正 例 (False Positive, FP) ， 分 类 器 预测 1， 真 实 类 标 为 “0” 的 分 类 数据 。 

(3) 真 反例 (True Negative, TN) ， 分 类 器 预测 0， 真 实 类 标 为 “0” 的 分 类 数据 。 

(4) 假 反例 (False Negative, FN) ， 分 类 器 预测 0， 真 实 类 标 为 “1” 的 分 类 数据 。 

而 TP+FP+TN+FN= 数 据 总 量 ， 如 表 2-1 所 示 为 混淆 矩阵 (Confusion Matrix) 。 








表 2-1 混淆 矩阵 


预测 结果 
mE 正 例 反例 











TP (HEH) FN 〈 假 反例 ) 
FP ({БПЕЙЇ) TN GE BI) 


如 式 (2.1) 所 示 ， 查 准 率 尸 就 是 分 类 器 预测 结果 为 “1” 中 预测 正确 的 比率 。 
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pote Q.D 
ТР+ ЕР 
FAK R 就 是 全 部 真实 类 标 为 “1” 的 数据 中 分 类 器 预测 正确 的 比率 ， 如 式 (2.2) 所 示 。 
TP 
R= C22): 
ТР+ЕМ 


查 准 率 与 查 全 率 是 一 对 “ 鱼 ” 与 “能 掌 ”， 一 般 来 说 ， 查 准 率 高 时 ， 查 全 率 往往 偏 低 ; 
而 查 全 率 高 时 ， 查 准 率 往往 偏 低 。 例 如 ， 如 果 想 要 将 垃圾 邮件 都 选取 出 来 ， 可 以 将 所 有 邮件 
都 标记 为 垃圾 邮件 ， 那 查 全 率 就 可 以 接近 于 1 了 ， 但 这 样 查 准 率 就 会 比较 低 ; 如 果 希 望 分 类 
垃圾 邮件 的 查 准 率 足够 高 ， 那 么 让 分 类 器 尽 可 能 挑选 最 有 把 握 的 垃圾 邮件 ， 但 这 样 往往 会 有 
大 量 的 垃圾 邮件 成 为 漏网 之 鱼 ， 此 时 查 全 率 就 会 比较 低 。 

需要 注意 的 是 ， 性 能 度量 也 依赖 于 所 需 完成 任务 的 应 用 场景 。 任 务 场景 不 同 ， 度 量 手段 
也 不 相同 ， 如 果 性 能 度量 选取 不 当 ， 对 于 该 任务 可 能 是 毁灭 级 的 。 比 如 我 们 让 机 器 完成 指纹 
识别 任务 ， 但 应 用 在 超市 中 和 应 用 在 安全 机 构 部 门 的 指纹 识别 系统 ， 其 性 能 度量 方式 完全 不 
同 。 在 某 个 超市 会 员 系统 中 ， 需 要 识别 用 户 的 指纹 以 确定 用 户 是 否 为 会 员 ， 然 后 对 部 分 商品 
进行 打折 或 抽奖 服务 ， 此 时 我 们 并 不 关心 指纹 识别 的 精确 度 ， 假 设 一 个 会 员 用 户 总 是 被 识别 
错误 ， 那 么 该 用 户 就 会 非常 恼火 ， 超 市 很 有 可 能 就 会 失去 一 个 老 顾 客 。 相 反 ， 将 一 个 非 会 员 
顾客 识别 错误 ， 其 损失 就 没 那么 高 ， 或 许 还 有 可 能 获得 一 个 新 会 员 ， 因 此 该 任务 会 更 关心 查 
全 率 ， 也 就 是 期 望 所 有 会 员 都 要 被 识别 出 来 。 但 如 果 将 指纹 识别 应 用 在 某 安全 部 门 ， 用 于 识 
别 员工 的 身份 ， 此 时 我 们 就 更 关心 识别 员工 的 正确 性 ， 因 此 机 器 只 会 在 最 有 “把 握 ” 的 情况 
下 才 人 允许 员工 通过 ， 此 时 我 们 更 关心 查 准 率 ， 我 们 或 许 情愿 对 员工 识别 错误 100 次 ， 也 不 愿 
意 放 过 一 个 非 员 工 ， 或 许 此 时 机 器 可 能 “非常 不 好 用 ”， 但 安全 性 得 到 了 保障 。 


2.1.3 327241 


根据 数据 (经 验 ) 的 类 型 ， 我 们 可 以 将 机 器 学 习 算 法 粗略 地 分 为 监督 学 习 (Supervised 
Learning) 和 非 监督 学 习 (Unsupervised Learning) 。 

监督 学 习 算法 : 试图 将 已 知 数据 与 该 数据 所 对 应 的 标记 或 类 标 〈label) 进行 关联 。 比 如 
幼儿 园 老师 教 小 朋友 识别 树 ， 老师 拿 一 堆 图 片 给 小 朋友 看 ， 并 告诉 小 朋友 这 些 图 片 里 都 是 树 。 
小 朋友 就 拿 着 这 些 图 片 观察 (学习) ， 之 后 老师 就 再 拿 些 新 的 图 片 给 小 朋友 识别 ， 小 朋友 根 
据 自己 已 经 学 习 到 的 知识 去 识别 新 的 图 片 ， 老 师 会 告诉 小 朋友 哪些 图 片 识 别 对 了 ， 哪 些 图 片 
识别 错 了 。 然 后 根据 老师 的 纠正 ， 小 朋友 就 再 次 调整 自己 ,不 断 地 学 习 提 高 自己 识别 树 的 能 
Be 

在 我 们 所 拥有 的 资料 中 , 既 有 数据 x (比如 一 张 张 的 图 片 ), 8G Xs BFS Iia y CLE 
如 老师 的 指导 ) ， 我 们 从 Ge у) 中 学 习 的 过 程 就 叫 监督 学 习 。 例如， 进行 数字 图 像 识 别 任 
Ж, 我 们 将 数字 图 片 作 为 数据 输入 到 机 器 学 习 算 法 中 , 然后 算法 会 预测 出 一 个 数字 分 类 y'， 
之 后 我 们 依据 图 片 所 对 应 的 真实 标记 y， 比 较 y 与 y' 的 差异 再 来 调整 学 习 算法 。 

非 监督 学 习 算法 : 生活 中 的 数据 绝 大 多 数 是 没有 标记 的 ， 并 且 也 缺少 金钱 与 人 力 去 标记 
数据 。 非 监督 学 习 就 是 在 没有 指导 标记) 的 前 提 下 ， 学 习 数 据 集 内 部 的 有 用 结构 。 最 常见 
的 非 监督 学 习 算 法 是 聚 类 〈Clustering) ， 该 类 算法 通常 按照 中 心 点 或 者 分 层 的 方式 对 输入 数 
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据 进行 归并 ， 试 图 找到 数据 的 内 在 结构 ， 以 便 按 照 最 大 的 共同 点 将 数据 进行 归 类 。 

从 概率 的 角度 来 看 ， 非 监督 学 习 试图 通过 随机 变量 x 去 学 习 概 率 分 布 P(x) 或 某 些 分 布 性 
质 ; 监督 学 习 试图 使 用 随机 变量 x 以 及 关联 ”学习 条 件 概率 PCyk)， 试 图 通过 x 去 预测 y。 
但 监督 学 习 与 非 监督 学 习 并 不 是 一 种 形式 化 的 定义 ， 其 界限 有 时 也 很 模糊 。 

在 一 些 情况 下 ， 我 们 既 有 标记 数据 ， 也 有 大 量 的 未 标记 数据 ， 我 们 将 这 两 类 数据 都 利用 
起 来 就 称 为 半 监 督学 习 (Semi-supervised Learning) 。 

有 时 数据 需要 从 环境 中 获取 ， 而 数据 对 应 的 标记 也 要 从 环境 中 获取 ， 我 们 并 不 提供 标记 
数据 ， 我 们 只 提供 某 种 评价 机 制 〈 奖 励 或 惩罚 ) ， 这 样 的 学 习 方式 称 之 为 强化 学 习 
(Reinforcement Learning) 。 就 像 我 们 教 小 狗 上 而 所， 但 小 狗 可 听 不 懂 你 的 话 ， 就 需要 不 停 
地 奖励 或 惩罚 其 行为 ， 小 狗 才 可 能 学 会 上 厕所 。 

为 了 统一 描述 ， 以 后 我 们 会 将 数据 集 称 之 为 数据 和 矩阵， 也 可 以 简单 地 想象 为 二 维 数组 ， 
矩阵 的 列 为 数据 的 不 同 特征 ， 和 矩阵 的 行为 不 同 数据 。 例 如 ， 我 们 有 88 张大 小 为 32X32 的 灰 


2.2 代价 函数 


机 器 学 习 中 绝 大 多 数 任务 都 是 优化 任务 ， 也 就 是 去 寻找 最 优 解 。 对 应 到 函数 中 ， 就 是 寻 
找 函 数 极 值 。 但 这 其 中 就 存在 一 个 很 困难 的 问题 ， 局 部 最 优 解 。 传 统 的 机 器 学 习 大 多 是 针对 
凸 优化 问题 ， 也 就 是 函数 可 以 找到 最 大 值 或 最 小 值 ， 但 很 不 幸 ， 由 于 深度 学 习 构造 的 函数 非 
常 复杂 《模型 容量 大 ) ， 因 此 深度 学 习 会 存在 很 多 局 部 最 优 解 〈 数 据 高 维 时 鞍点 更 普遍 ) ， 
这 也 是 深度 学 习 所 面临 的 最 困难 的 挑战 之 一 ， 为 此 我 们 也 将 在 第 5 章 中 专门 地 介绍 深度 学 习 
的 优化 技术 。 

绝 大 多 数 机 器 学 习 算 法 学 习 的 过 程 ， 其 实 就 是 在 调整 数据 特征 的 重要 性 ， 我 们 将 这 种 刻 
画 重 要 性 的 量 称 之 为 参数 或 权重 ， 参 数控 制 着 机 器 学 习 系统 的 行为 ， 而 我 们 要 做 的 其 实 就 是 
找到 一 组 最 优 的 参数 。 我 们 可 以 把 机 器 学 习 算 法 简单 地 想 成 一 个 函数 f(x), О ms RRI 
Bo x 表示 我 们 输入 的 数据 ，. 思 09 可 以 是 简单 的 线性 回归 算法 ， 如 式 〈2.3) 所 示 。 


fX) = GQ x, + OX, t 0x, (2.3) 
ET AE JE ЕА SIS, WoX (2.4) 所 示 。 
„ОЭ = af (a (их) + ax (их) 5) (24) 


暂 不 考虑 其 内 部 结构 ， 我 们 的 目的 就 是 尽 可 能 地 让 我 们 设计 的 函数 尽 可 能 的 “好 ”。 而 
所 谓 的 “好 ”就 是 机 器 学 习 算 法 的 预测 值 与 实际 值 之 间 的 误差 尽 可 能 的 低 ， 我 们 也 将 衡量 这 
种 误差 的 函数 称 之 为 代价 函数 “Cost Function) 或 者 损失 函数 (Loss Function) o 
2.2.1” 均 方 误差 函数 


假设 需要 完成 一 个 房屋 价格 预测 任务 ， 我 们 需要 输入 房屋 面积 、 户 型 、 位 置 等 特征 ， 输 
出 为 房屋 价格 预测 。 我 们 用 集合 并 = (0, ХО), x3 RAR OA m 条 房屋 信息 (数据 》， 
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用 集合 7 = fy, 9,... yy 表示 对 应 的 实际 售 出 价格 。 并 且 我 们 也 设计 好 了 机 器 学 习 算 法 
tx;w)， 而 你 需要 做 的 是 ， 思 考 一 下 如 何 设计 我 们 的 代价 函数 。 你 能 想到 最 简单 的 代价 函数 会 
是 什么 呢 ? 比如 式 〈2.5) 这 样 一 个 简单 的 代价 函数 。 


JO) =F] y’ ою) Q5) 


你 能 看 出 式 〈2.5) 表示 什么 意思 吗 ? 其 实 很 简单 ， 就 是 把 每 一 个 预测 的 房屋 价格 与 真实 
的 房屋 价格 相 减 ， 因 为 我 们 只 关心 两 者 的 误差 于 是 就 加 了 一 个 绝对 值 ， 然 后 将 所 得 的 误差 办 
加 起 来 就 得 到 上 面 的 公式 了 。 

假如 你 去 预测 房屋 的 价格 ， 你 又 怎样 评价 自己 误差 呢 ? 你 会 不 会 这 样 想 “有 些 预 测 非常 
准确 ， 有 些 预测 比较 差 ， 但 平均 下 来 还 是 挺 不 错 的 。” 自 然而 然 ， 我 们 去 估算 一 堆 事物 的 好 
坏 ， 也 总 是 使 用 平均 值 ， 用 统计 学 的 术语 就 叫 期 望 值 ， 我 们 再 稍稍 修改 式 (2.50 中 的 代价 函 
数 就 得 到 了 式 Qe 。 


Jo) 2 Уе е) (26) 
i=l 


X (2.6) 已 经 足够 优秀 了 ， 但 有 一 个 缺点 ， 那 就 是 有 绝对 值 ， 因 为 绝对 值 不 连续 也 不 能 
处 处 可 导 ， 那 么 怎样 既 不 破坏 我 们 近乎 完美 的 设计 ， 又 可 以 去 掉 绝 对 值 呢 ? 我 猜 你 5 秒 钟 内 
就 会 想到 ， 可 以 对 其 求 平方 ， 如 式 〈2.7) 所 示 。 


JOH) 2 L3 9 - fa wy an 
ia 


就 是 如 此 简单 ， 我 们 轻松 地 设计 出 了 第 一 个 代价 函数 ， 但 请 你 不 要 误会 ， 式 (2.7) 代价 
函数 可 是 大 名 易 易 的 均 方 误差 (Mean Squared Error) Pl; 

看 完 以 上 式 的 推导 ， 不 知道 你 有 何 感想 ， 其 实 这 些 式 只 是 我 们 各 种 想法 的 简化 描述 ， 看 
到 式 (2.7) 会 不 会 有 一 种 容 然 开朗 的 感觉 ， 我 们 需要 用 一 堆 文 字 描 述 的 思想 ， 只 需 一 行 表达 
式 就 可 以 完成 。 开 始 时 希望 你 不 要 和 急躁， 如果 对 这 一 过 程 有 些 不 懂 ， 再 折 回 去 慢 慢 体会 这 一 
过 程 也 是 个 不 错 的 选择 。 请 记 住 这 些 式 来 帮助 你 记忆 并 理解 上 文中 的 内 容 ， 不 是 你 的 负担 。 
这 些 式 并 不 重要 ， 重 要 的 是 其 所 表示 的 含义 。 


2.2.2” 极 大 似 然 估计 


“阳光 正 热 ， 才 过 午后 ， 学 徒 小 飞 湖 了 一 杯 下 午 茶 ， 准 备 躺 在 竹 摇椅 上 享受 一 番 。 不 料 
HA EET kE, AKESE, kE. “ 劣 徒 ， 你 还 有 没有 梦想 ? d 
和 为 师 上 山 打 猎 。” 两 人 走 到 半山 腰 ， 发 现 了 一 只 小 兔子 ， 于 是 两 人 同时 举 起 了 枪 ， 小 白 免 
就 倒 在 了 血泊 中 。” 那 么 问题 来 了 ， 是 谁 残忍 地 杀害 了 小 白 兔 ? 

如 果 大 侠 没 开 脑 洞 ， 正 常情 况 下 应 该 会 选择 杨 师 傅 吧 ， 也 许 你 觉得 你 的 选择 很 正常 没 什 
么 奇怪 的 , 但 其 实 你 已 经 用 到 了 极 大 似 然 的 思想 。 那 “ 似 然 ? 又 具体 指 什么 呢 ? 似 然 (likelihood) 
是 一 种 较为 文言 文 的 翻译 ， 我 们 脱 去 其 外 衣 可 能 看 得 比较 清楚 。“ 似 然 ” 用 现代 的 中 文 来 说 
就 是 “可 能 性 ”， 所 以 极 大 似 然 ， 通 俗 点 就 是 最 大 的 可 能 性 。 我 们 选择 杨 师 傅 的 原因 是 因为 
杨 师 传 帅 吗 ? 当然 不 是 ， 那 是 因为 杨 师 傅 是 “ 老 炮 ”， 他 的 枪法 准 ， 射 中 的 可 能 性 更 大 。 
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回 到 生活 中 ， 我 们 几乎 处 处 都 在 使 用 “ 极 大 似 然 ”， 很 多 时 候 我 们 没 机 会 ， 也 没 能 力 去 
探究 事物 的 真相 ， 我 们 最 简单 也 是 最 高 效 的 方法 就 是 去 估计 。 当 你 去 找 工作 时 ， 别 人 很 有 可 
能 会 问 你 ， 你 来 自 哪 所 学 校 ? 你 的 文凭 如 何 ? 你 得 过 什么 奖 ? 记 住 ， 任 何 指标 都 不 能 确认 你 
是 一 个 多 么 优秀 的 人 ， 指 标 只 能 确定 你 是 优秀 人 才 的 可 能 性 。 

在 继续 讨论 “ 极 大 似 然 ” 之 前 ， 我 们 要 补充 机 器 学 习 中 非常 重要 的 一 个 假设 ， 那 就 是 数 
据 独立 同 分 布 (independent and identically distributed, 1.1.4.) 条 件 。 独 立 同 分 布 假设 数据 与 数 
据 是 独立 的 ， 就 比如 信用 卡 发 放任 务 中 ， 每 一 张 用 户 填写 的 表格 是 相互 独立 的 ， 但 该 任务 的 
所 有 数据 又 都 来 自 于 同一 个 概率 分 布 函数 ， 这 就 使 得 我 们 模拟 出 已 知 数据 的 概率 分 布 模型 ， 
同样 也 可 以 运用 在 未 来 的 任务 中 。 有 了 ii.d. 条 件 ， 就 可 以 构造 极 大 似 然 估计 。 

我 们 依然 给 出 一 个 概率 函数 POsw)， 为 了 方便 ， 概 率 函 数 只 进行 了 二 分 类 ， 也 就 是 输出 
“0” 或 “1”。 那 么 如 何 去 判 断 POx:w) 的 好 坏 呢 ? 很 简单 ， 那 就 是 该 概率 函数 在 已 有 的 数据 
上 发 生 的 概率 最 高 ， 考 虑 到 数据 是 相互 独立 的 ， 因 此 可 以 对 每 一 条 数据 对 应 的 概率 函数 进行 
求 积 ， 就 得 到 了 式 (2.8) 。 





L(w) 2 [Ро 1x?;w) (2.8) 


这 个 函数 就 称 为 似 然 函数 ， 而 我 们 求 出 该 函数 取得 最 大 值 时 所 对 应 的 参数 ， 也 就 是 极 大 
似 然 估计 (Maximum Likelihood Estimate) 四 。 

但 问题 在 于 ， 求 连 积 是 很 困难 的 ， 不 但 耗费 计算 资源 ， 令 人 头疼 的 是 还 非常 容易 造成 内 
存 下 溢出 。 那 我 们 能 不 能 将 乘法 改 成 加 法 呢 ? 可 以 使 用 对 数 函 数 将 乘法 转换 为 加 法 。 如 式 
(2.9) 就 是 对 数 运算 的 基本 公式 之 一 。 


log, (MN) = log, M +log,N (2.9) 
根据 式 〈2.8) 和 (2.9) ， 我 们 对 似 然 函 数 取 自然 对 数 就 得 到 了 式 (2.10) o 
In L(w) = nP? | x0; w) (2.10) 
isl 
在 习惯 上 ， 我 们 比较 喜欢 求 最 小 值 、 平 均值 ， 因 此 式 (2.10) WERT QD. 
In L(w) = Sy npo” |x; w) (2.11) 
т a 


假设 机 器 学 习 算 法 ftx) 就 是 概率 函数 PO) 需要 注意 的 是 如 果真 实 的 标记 y 是 “0”， 那 
么 预测 的 .Ko) 也 应 该 接近 于 “0”， 但 公式 又 不 允许 “0” 出 现 ， 因 此 在 真实 值 为 “0” 时 ， 预 
WEH 1-X9) 代 奉 。 最 后 代价 函数 就 如 式 〈2.12) 所 示 。 


Jia уо" In £(x?;w)(1-59)In0- fw) R212 
i4 
也 许 一 眼看 上 去 式 (2.12) 会 比较 复杂 ， 但 其 含义 也 很 简单 ， 当 真实 值 为 “1” 时 ， 我 们 


就 使 用 有 x)， 将 右边 式 子 的 第 二 项 去 掉 ， 当 真实 值 为 “0” 时 ,我们 就 使 用 Ifa), He 
的 第 一 项 去 掉 。 式 (2.12) 也 被 称 为 交叉 米 (Cross-entropy) 7. 


35 


= 深度 学 习 实战 





23 梯度 下 降 法 


上 面 的 内 容 中 ， 我 们 已 经 构造 了 两 种 代价 函数 ， 并 且 这 两 种 函数 都 是 凸 函 数 ， 也 就 是 都 
存在 最 小 值 。 只 要 求 出 代价 函数 取 最 小 值 时 的 参数 ， 我 们 的 任务 也 就 完成 了 。 那 函数 的 极 值 
又 怎么 求 呢 ? 非常 简单 ， 当 函数 切线 的 斜率 为 0， 也 就 是 代价 函数 的 导数 为 0 时 ， 也 就 是 函 
数 取得 极 值 时 《〈 若 自 变量 多 于 一 个 ， 导 数 也 称 为 梯度 ) 。 但 这 并 不 好 求 ， 有 时 因为 计算 量 太 
大 ， 有 时 甚至 根本 找 不 到 直接 求解 函数 极 值 的 公式 ， 因 此 我 们 选择 轴 笨 一些 的 方法 “ 走 一 步 ， 
HB” 

话说 徒弟 小 飞 与 杨 师 傅 已 经 抓 到 了 小 白 兔 ， 休 息 一 会 儿 ， 就 准备 下 山 了 ， 然 天 气 大 变 ， 
周围 突然 起 了 很 浓 的 雾 。 此 时 小 飞 大 叫 ，“ 师 传 不 好 ， 有 妖 气 ! ” EPA BS o KOC 
WK, "E, WEH, KR, BAK, ARI, ABET Fil. " TAE 
师 徒 二 人 就 急匆匆 地 下 山 了 。 但 雾 太 浓密 ， 早 已 分 不 清 去 路 。 师 徒 倘 只 能 环顾 四 周 ， 摸 索 一 
条 下 山 最 陡 的 路 ， 然 后 走 一 段 距离 ， 再 环顾 四 周 ， 再 往 最 陡 的 方向 前 进 ， 到 了 傍晚 ， 师 徒 俩 
终于 回 到 了 家 中 。 如 图 2-2 所 示 ， 我 们 根据 当前 数据 ， 求 出 “下 山 ” 最 快 的 方向 《梯度 ) ， 
然后 往 梯度 方向 走 一 段 距离 ， 再 重复 相同 步 又 的 迭代 方法 ， 就 称 为 梯度 下 降 法 (Gradient 


Descent) 四 。 








19,9). 


图 2-2 梯度 下 降 示 意图 


梯度 下 降 法 ， 主 要 考虑 两 个 问题 一 是 方向 (梯度 ) ， 二 是 步 长 〈 学 习 率 W ) 。 方 向 决 
定 是 否 走 在 正确 的 道路 上 ， 而 步 长 决定 了 要 走 多 久 才能 到 达 目 的 地 错误 率 最 低 处 ) 。 对 于 
第 一 个 问题 ， 主 要 集中 在 如 何 才能 精准 地 找到 最 小 值 的 方向 。 但 很 遗憾 ， 我 们 并 没 上 帝 视 角 ， 
因此 我 们 只 能 找到 当前 的 最 佳 梯度 ， 但 当前 的 梯度 不 一 定 是 回 家 的 路 ， 我 们 却 只 能 前 行 ， 对 
于 第 二 个 问题 ， 主 要 集中 在 如 何 确定 合理 的 步 长 ， 如 果 步 子 太 小 ， 则 需要 很 长 的 时 间 才 能 到 
达 目 的 地 ， 如 果 步 子 过 大 ， 可 能 导致 在 目的 地 周围 来 回 震荡 。 


° 方向 (梯度 ) 


我 们 首先 来 看 梯度 ， 求 梯度 其 实 就 是 求 多 元 函数 相应 变量 的 偏 导数 ， 若 参数 为 一 个 ， 也 
就 是 数据 为 一 维 数据 , 那么 其 实 就 是 在 求 复合 函数 的 导数 , 如 果 代价 函数 为 均 方 误差 函数 (为 
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了 计算 简洁 ， 在 代价 函数 中 乘 以 0.5) , W (2.13) 所 示 。 


ІХ рю. оу 
J(w) 252,0 f(x; w)) (2.13) 


我 们 的 学 习 器 为 线性 回归 ， 并 且 数 据 为 二 维 : ГО) = wen 二 WX， 那么 第 一 个 参数 Wi 
的 梯度 就 为 式 (2.14) 注意 求 导 时 的 负 号 ) 。 


VQ) Әби) 3/69) E 
aw, Ffw) aw, а ғози) (2.14) 





同样 地 ， w, 的 梯度 就 为 式 (2.15) 。 


UW _ VW FO) _ IS wm _ peo. yyy, 0 
2e XO) M» ae -SOW (2.15) 





我 们 所 谓 的 沿 着 粒度 方向 上 走 一 步 ， 其 实 就 是 去 修改 wwW =, -а BO. 
Wi 

注意 ， 本 书 是 去 减 梯度 ， 但 有 些 资料 中 为 加 梯度 ， 那 是 在 梯度 中 茂 着 负 号 。 也 可 以 理解 
为 正确 的 修改 方向 是 负 梯 度 方向 。 

虽然 上 述 的 推导 比较 烦琐 ， 如 果 你 能 耐心 看 完 ， 会 发 现 其 实 非常 简单 ， 然 后 再 看 看 算法 
2.1， 你 会 发 现 我 们 的 关键 算法 ， 其 实用 一 行 代码 就 可 以 完成 。 因 为 简单 的 一 行 代码 ， 我 们 讲 
了 一 个 故事 ， 推 导 了 一 系列 的 公式 ， 虽 然 有 些 烦 项 ， 但 这 些 代价 都 是 值得 的 。 





算法 2.1: 梯度 下 降 算 法 用 于 迭代 最 优化 均 方 误 差 代 价 函 数 
SEGRE X = x, --- 39), BOR REY 200,9, ， 
352) 8 SOG м) = Wy T wx, ws, FIE ОР) а. 
For iE {VERB BK 
t m 
Wi = wi a yg — f(x; wy) x 

j=l 


} 











° DK (#4 o) 


我 们 刚刚 推导 完了 梯度 ， 学 会 了 如 何 找 “ 下 山 的 方向 ”， 现 在 我 们 就 来 聊 聊 “下 山 的 速 
度 ”。 假 如 小 飞 是 超人 ， 一 个 奇怪 的 超人 ， 他 的 步子 可 以 任意 长 ， 但 他 有 一 个 缺点 ， 那 就 是 
比较 “耿直 ”， 只 会 治 着 要 走 的 方向 直行 。 山 谷 那 站 着 他 喜欢 的 人 小 鱼 ， 他 要 去 见 她 。 他 离 
最 低 处 45m， 步 长 为 Im， 当 他 走 到 第 5 步 时 就 出 现 了 问题 ， 那 就 是 他 多 走 了 0.5m, РЖ 
他 会 怎么 做 呢 ? 根据 上 面 的 梯度 求法 ， 小 飞 知道 现在 的 下 山 方向 在 他 的 后 面 ， 那 他 就 往 后 再 
走 1 米 ， 但 接 下 来 他 就 尴 估 了 ， 他 就 像 一 个 可 爱 的 钟 摆 一 样 ， 不 停 地 在 小 鱼 周围 来 回 震荡 ， 
不 管 小 飞 走 多 久 ， 他 与 小 鱼 始终 相差 着 0.Sm， 此 时 耿直 的 小 飞 眼角 都 湿润 了 。 你 愿意 帮 帮 他 
吗 ? 请 记 住 ， 我 们 从 上 帝 视角 知道 小 飞 离 小 鱼 的 距离 ， 但 旁观 者 清 ， 当 局 者 迷 ， 小 飞 是 不 知 
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道 距离 的 。 

聪明 的 你 可 能 有 很 多 好 的 想法 ， 而 我 就 只 能 想 出 两 个 。 首 先 就 是 提示 小 飞 ，“ 小 伙 子 ， 
欲 速 则 不 达 ， 慢 一 点 吧 ! ”， 于 是 小 飞 就 减 小 了 步 长 ， 一 次 走 0.4m， 屠 小 飞 离 小 鱼 最 近 的 距 
离 也 就 缩短 到 0.1m。 而 尝 到 甜头 的 小 飞 就 把 自己 的 步 长 缩小 到 了 0.04m， 那 他 最 终 高 最 低 点 
也 就 更 近 了 。 但 这 里 就 出 现 了 一 个 问题 ， 减 小 步 长 确实 会 离 成 功 更 近 ， 但 时 间 的 代价 ， 也 会 
让 小 飞 心 碎 。 

考虑 到 刚才 的 情况 ,我 又 有 了 一 个 不 错 的 想法 。 开 始 时 就 勇敢 地 大 步 往 前 迈 ， 走 到 一 定 
步 数 后 就 缩小 步 长 。 在 实际 的 应 用 中 ， 步 长 〈 学 习 率 % ) 的 选择 是 一 个 很 有 技巧 性 的 活 ， 
具体 情况 还 要 具体 分 析 。 总 体 情况 就 是 @ 过 大 , 代价 函数 就 会 在 最 低 值 附近 较 大 震荡 , TM OF 
较 小 代价 函数 的 震荡 也 会 较 小 ， 但 到 达 震 荡 区 间 的 时 间 也 会 变 长 ， 这 也 是 一 个 鱼 与 驴 掌 的 
问题 。 


231 批量 梯度 下 降 法 


批量 梯度 下 降 (Batch Gradient Descent, BGD) 四 又 称 最 速 梯度 下 降 ， 使 用 “批量 ”一 词 
可 能 会 产生 歧义 ，“ 批 量 ” 一 词 应 该 是 “一 批 一 批 处 理 ” 的 意思 ， 如 管道 和 缓冲 器 一 般 ， 但 
这 里 的 “批量 ”其 实 指 的 是 “全 部 一 起 处 理 ” 的 意思 。 我 们 要 处 理 什么 呢 ? 我 们 要 处 理 的 其 
实 是 数据 ， 前 文中 说 到 我 们 要 找 “ 下 降 最 快 的 方向 ”， 因 此 就 进行 了 求 导 ， 但 其 实 我 们 只 是 
找到 了 下 降 的 方向 ， 还 没 找到 下 降 最 快 的 方向 。 如 算法 2.2 所 示 ， 才 是 下 降 最 快 的 方向 ， 不 
知道 你 喜 不 喜欢 玩 “ 大 家 来 找茬 ”游戏 ， 我 们 现在 就 找 找 算法 2.1 与 算法 2.2 的 茬 吧 ! 





算法 22. 最 速 梯度 下 降 算 法 用 于 迭代 最 优化 均 方 误差 代价 函数 


给 定数 据 集 外 = ne | š 数据 集 标记 了 三 {у®,у®,...,у%} Š 
SED] Оси) = wx T их, wx, FIR OPE G, 

For ЖКД UK 

{ 


N 
1 А Я 
Wi = Wi + ex ror = FR”; w))- x) 
jzi 








可 以 发 现 , 我 们 把 算法 2.1 中 的 m 换 成 了 算法 2.2 中 的 N, AB NEAT AME? N XIII 
据 个 数 ， 我 们 计算 一 次 梯度 时 ， 需 要 计算 完 所 有 数据 中 的 误差 梯度 ， 然 后 累加 之 后 再 取 平均 
值 ， 这 就 是 我 们 要 找 的 最 速 下 降 梯度 ， 也 就 是 我 们 上 文 提 到 的 一 个 信息 “环顾 四 周 ”。 
事物 具有 两 面 性 ， 最 速 梯度 下 降 也 具有 ， 优 点 是 准确 ， 我 们 找到 了 最 正确 的 方向 ; d 
点 就 是 慢 , 每 计算 一 次 梯度 都 要 遍历 所 有 数据 ， 考 虑 到 如 今 的 大 数据 时 代 ， 这 就 成 了 巨大 
的 困难 。 
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2.3.2 ”随机 梯度 下 降 法 


随机 梯度 下 降 (Stochastic Gradient Descent, SGD) 69 是 批量 梯度 下 降 的 一 个 极端 版 本 ， 
如 算法 2.3 所 示 ， 是 随机 梯度 下 降 的 算法 描述 。 


算法 2.3: 随机 梯度 下 降 算法 用 于 迭代 最 优化 均 方 误差 代价 函数 








给 定数 据 集 开 = fxo,x2 ,xzw}， 数 据 集 标 记 了 = 07, у-у), 
FJR Ow) = wo wx, two, FRR CHAK) G, 

For 迭代 足够 多 次 

{ 

随机 选择 一 条 数据 #7 s 

w, = э, +@(у® — f(x Ps wy) xP 


} 








算法 优点 很 明显 ， 那 就 是 快 ， 只 要 见 到 一 条 数据 ， 就 计算 其 梯度 ， 然 后 调整 参数 w。 也 
许 你 会 说 缺点 也 很 明显 ， 那 就 是 不 可 靠 。 但 其 真 的 “不 可 靠 ” 吗 ? 

我 们 先 来 聊 聊 SGD 算法 的 优点 。 使 用 SGD 算法 ， 最 大 的 好 处 就 是 我 们 不 需要 考虑 数据 
集 的 尺寸 ， 我 们 看 见 一 条 数据 就 修改 一 次 参数 。 很 自然 地 ， 我 们 的 学 习 器 就 可 以 边 学 习 边 工 
作 ， 也 就 是 现在 流行 的 在 线 学 习 COnline learning) 50 模式， 更 为 重要 的 是 社会 是 在 发 展 变化 
的 ， 同 时 数据 也 在 不 停 地 更 新 ， 就 像 3 年 前 流行 的 穿 衣 风 格 ，3 年 后 就 可 能 彻底 变 了 ， 而 我 
们 使 用 3 年 前 最 流行 的 穿 衣 风格 数据 来 预测 当前 的 穿 衣 风格 ， 这 就 落伍 了 。 

我 们 现在 来 谈 谈 SGD 算法 的 “不 可 靠 ”， 诚 然 ， 随 机 梯度 下 降 使 用 的 梯度 是 带 有 噪声 的 
梯度 ， 我 们 的 下 降 方向 也 总 是 曲折 的 ， 但 在 这 种 曲折 中 ， 我 们 还 是 跌跌撞撞 地 游 到 了 最 小 值 
附近 ， 然 后 就 在 最 小 值 周围 震荡 。 虽 然 我 们 没有 得 到 最 优 解 ， 但 我 们 至 少 得 到 了 一 个 不 错 的 
解 。 并 且 在 深度 学 习 中 ， 我 们 恰恰 会 避 开 最 优 解 ， 而 选择 一 个 还 不 错 的 解 ， 这 其 中 有 两 个 重 
要 的 原因 。 

其 一 就 是 我 们 的 数据 本 身 就 不 可 靠 ， 数 据 是 带 有 噪声 的 ， 产 生 数 据 噪声 的 原因 有 很 多 ， 
有 人 为 造成 的 ， 也 有 天 然 的 ， 噪 声 是 不 可 避免 的 。 为 了 解决 这 一 问题 ， 一 个 简单 而 又 重要 的 
想法 呼之欲出 ， 就 是 我 们 在 噪声 中 学 习 。 之 前 我 们 提 到 降 噪 任务 就 是 在 数据 中 加 入 噪声 学 习 
的 一 种 学 习 方 式 ， 而 随机 梯度 下 降 也 可 以 认为 是 在 梯度 中 加 入 噪声 学 习 ， 这 样 训练 出 来 的 学 
习 器 就 可 能 拥有 更 强 的 抗 噪 能 力 。 

其 二 就 是 我 们 不 要 学 得 “ 太 好 ”， 这 可 能 有 点 难以 理解 。 在 深度 学 习 中 ， 由 于 我 们 模型 
能 力 很 强大 ， 因 此 很 容易 就 在 已 知 数据 中 学 得 很 “完美 ”， 但 在 未 知 数据 中 就 会 表现 得 水 土 
不 服 。 深 度 学 习 中 一 个 重要 的 方法 就 是 使 用 旱 停 (Early Stopping) (9， 也 就 是 学 到 一 定 程 度 
就 终止 了 学 习 ， 这 种 方式 没有 在 已 知 数据 中 表现 得 “完美 ”， 反 而 在 未 知 数据 中 表现 得 还 不 
错 。 而 随机 梯度 下 降 也 没有 在 数据 中 学 得 “完美 ”， 而 在 未 知 数据 中 ， 往 往 表现 还 不 错 。 

当然 如 果 噪 声 太 大 ， 我 们 也 无 法 学 习 。 取 批量 梯度 下 降 与 随机 梯度 下 降 的 一 个 折 中 ， 如 
最 早 的 算法 2.1 所 示 ， 我 们 称 之 为 最 小 批量 梯度 下 降 (Mini-Batch Gradient Descent) 191. fft 
全 部 数据 有 一 百 条 ， 那 我 们 可 以 随机 选择 10 条 数据 求 出 其 梯度 误差 , 然后 累加 之 后 再 取 平 均 
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值 。 但 如 何 选择 最 小 批量 的 大 小 ， 也 是 需要 在 实际 应 用 中 根据 实际 情况 进行 选择 的 。 
24 过 拟 合 与 欠 拟 合 


机 器 学 习 的 核心 任务 是 在 新 的 、 未 知 的 数据 中 执行 得 好 ， 而 这 种 在 未 知 数据 中 执行 的 能 
力 ， 我 们 也 称 之 为 泛 化 能 力 〈generalization) 。 

训练 机 器 学 习 模型 所 使 用 的 数据 集 称 之 为 训练 集 (training set) ， 而 使 用 这 些 数 据 产 生 的 
误差 称 之 为 训练 错误 Ctraining error) 。 在 测试 数据 上 的 误差 ， 称 之 为 测试 错误 (test error) 
或 泛 化 错误 (generalization error) ， 机 器 学 习 的 目的 就 是 去 降低 泛 化 错误 。 

但 非常 遗憾 ， 虽 然 我 们 的 目标 是 测试 错误 ， 但 我 们 只 能 使 用 训练 数据 去 训练 我 们 的 机 器 
学 习 模型 。 那 我 们 又 赁 什么 去 说 服 别 人 呢 ? 统计 学 习 理 论 给 我 们 提供 了 些 信心 ， 如 果 训练 数 
据 与 测试 数据 毫 无 关系 ， 那 我 们 就 可 以 撕 书 离开 了 。 但 如 果 训 练 数据 与 测试 数据 〈 已 知 数据 
与 未 知 数据 ) 拥有 某 种 关联 性 ， 我 们 就 可 以 化 腐朽 为 神奇 了 。 

首先 ， 假 设 训练 数据 和 测试 数据 都 是 由 某 个 概率 分 布 生成 的 ， 我 们 将 其 称 之 为 数据 生成 
过 程 (data generating process) ， 其 实在 介绍 极 大 似 然 估计 时 也 已 经 介绍 过 了 ， 那 就 是 数据 独 
立 同 分 布 (independent and identically distributed, iid.) 假设 。 我 们 假设 数据 之 间 是 相互 独立 
的 ， 而 数据 都 是 由 某 个 概率 分 布 函数 生成 ， 因 此 在 训练 数据 〈 已 知 ) 上 表现 很 好 的 算法 ， 在 
测试 数据 集 (未 知 ) 上 依然 也 能 表现 得 很 好 。 

同时 ， 这 个 假设 也 说 明了 我 们 如 何 做 才能 使 机 器 学 习 算法 执行 得 好 ， 主 要 做 到 以 下 两 点 。 


° ”使 训练 错误 率 尽 可 能 的 低 ; 
° 使 训练 错误 率 与 测试 错误 率 的 差距 尽 可 能 的 小 。 


这 两 个 问题 也 引出 了 机 器 学 习 的 两 个 核心 问题 : RWA CUnderfitting) 问题 及 过 拟 合 
COverfitting) 问题 。 当 机 器 学 习 算 法 在 训练 数据 上 错误 率 较 高 时 , 我 们 就 说 这 是 欠 拟 合 现象 ; 
当 机 器 学 习 算法 的 测试 错误 率 与 训练 错误 率 差距 较 大 时 ， 我 们 就 说 这 是 过 度 拟 合 现象 。 可 能 
你 对 拟 合 〈fit) 一 词 还 比较 陌生 ， 简 单 来 说 ， 我 们 把 数据 想象 成 空间 中 的 点 ， 然 后 找 一 条 曲 














过 拟 合 与 从 拟 合 现象 ， 就 像 我 们 在 过 去 事情 上 花费 的 精力 ， 如 果 我 们 太 过 于 计较 细节 ， 
花 很 多 精力 去 研究 过 往 ， 那 我 们 可 能 会 深 陷 其 中 ， 反 而 对 未 来 充满 了 月 惧 ， 如 果 我 们 不 在 乎 
过 去 ， 不 善于 总 结 ， 那 过 去 和 未 来 都 同样 糟糕 。 生 活 讲究 的 就 是 一 个 度 ， 如 何 去 掌握 度 ， 不 
仅 机 器 很 难 ， 其 实 对 于 生活 更 难 。 而 文中 所 说 的 付出 “精力 ”， 对 应 到 机 器 学 习 中 就 是 算法 
的 能 力 或 容量 〈capacity) 。 模 型 的 能 力 就 是 其 拟 合 各 种 函数 的 能 力 ， 通 俗 来 讲 就 是 一 个 模型 
拥有 多 少 种 函数 可 以 候选 。 模 型 能 力 低 ， 那 就 很 难 去 拟 合 训练 数据 集 ; 模型 能 力 高 ， 则 可 能 
拟 合 训练 数据 集 很 好 ， 但 测试 数据 集 就 很 差 。 通 过 调整 机 器 学 习 算 法 的 能 力 ， 我 们 需要 寻找 
一 个 最 佳 的 模型 ， 既 要 在 训练 数据 中 表现 很 好 ， 又 要 在 测试 数据 中 表现 不 错 。 

机 器 学 习 中 控制 模型 能 力 的 一 种 方式 是 选择 其 假设 空间 (Hypothesis Space) ， 通 俗 些 ， 
就 是 控制 算法 可 以 使 用 的 函数 的 数量 。 例 如 ， 我 们 使 用 线性 回归 去 拟 合 数据 ， 那 线性 回归 包 
含 的 所 有 直线 就 是 我 们 的 假设 空间 。 但 想 让 直线 穿 过 所 有 的 点 根本 就 不 可 能 ， 那 我 们 可 以 用 
二 次 函数 去 拟 合 数据 ， 而 且 二 次 函数 也 包含 了 一 次 函数 ， 更 极端 点 ， 我 们 还 可 以 用 十 次 多 项 
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式 去 拟 合 函数 ， 此 时 的 假设 空间 也 就 更 大 ， 算 法 能 力也 就 更 强 了 。 


RBA 恰当 能 力 


Hale 


9 2-3 ”不 同 假设 空间 拟 合 训练 数据 集 示例 


如 图 2-3 所 示 ， 就 说 明了 这 一 情况 ， 图 中 的 数据 为 二 次 函数 生成 的 数据 ， 在 图 2-3 (a) 
中 我 们 使 用 了 一 次 多 项 式 去 拟 合 数据 ， 出 现 了 欠 拟 合 现象 ， 而 图 2-3 (c) 我 们 用 九 次 多 项 式 
去 拟 合 数据 ， 虽 然 函 数 穿 过 了 全 部 数据 ， 但 如 果 我 们 再 添加 新 的 数据 进去 ， 该 函数 就 会 出 现 
较 大 的 误差 ， 因 此 就 会 发 生 过 拟 合 现象 。 

我 们 需要 记 住 的 是 ， 简 单 的 函数 更 容易 泛 化 ， 就 像 是 一 个 愚笨 的 人 虽然 过 去 表现 得 不 是 
很 好 ， 但 未 来 也 不 会 表现 得 太 差 ， 而 复杂 的 函数 往往 在 训练 数据 集 上 非常 优异 ， 但 对 于 测试 
数据 集 ， 可 能 就 会 “聪明 反 被 聪明 误 ”。 如 图 2-4 所 示 ， 就 是 这 种 泛 化 能 力 与 模型 能 力 的 “U 
型 曲线 ”， 在 最 佳 模型 的 左边 ， 训 练 错 误 率 与 泛 化 错误 率 随 着 模型 的 能 力 的 提高 而 下 降 ， 在 
最 佳 模型 的 右边 ， 训 练 错 误 率 随 着 模型 能 力 的 提升 而 下 降 ， 但 泛 化 错误 率 却 随 着 模型 能 力 的 
提升 而 上 升 ， 最 终 ， 泛 化 错误 率 与 训练 错误 率 的 差距 越 来 越 大 。 

















—- “训练 错误 率 
过 拟 合 区 域 — 泛 化 错误 率 





# жш 





0 最 佳能 力 模型 能 力 


图 2-4 ”模型 能 力 与 错误 率 关系 图 
° RIS ELI 


那 我们 实际 中 又 如 何 选择 各 种 不 同 能 力 的 模型 呢 ?“ 听 过 许多 道理 , 依然 过 不 好 这 一 生 ”， 
可 能 就 变 成 了 我 们 最 大 的 阻碍 ， 现 在 引入 一 个 古老 而 又 简单 的 哲学 思想 ， 那 就 是 奥 卡 姆 的 弟 


JJ (Occam’s razor) 。 
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“Do not multiply entities beyond necessity, but also do not reduce them beyond necessity.” 
William of Ockham 
ЕЧ ЖЛЕ “AAC RIESE, AC ESE K” , THE BA RFRA, 
但 我 觉得 断章取义 是 对 伟人 的 不 敬 ， 因 此 就 全 部 写 下 了 ， 仅 供 思考 。 这 一 思想 应 用 在 机 器 学 
习 中 就 是 ， 如 果 两 个 假设 空间 都 能 很 好 地 拟 合 数据 ， 那 就 选择 “最 简单 ”的 那 一 个 。 虽 然 这 
-思想 非常 简单 ， 但 并 不 一 定 很 容易 做 到 ， 诸 如 大 道 至 简 的 原理 很 多 大 家 都 提 到 过 ， 接 下 来 
再 引用 爱 因 斯 坦 的 一 名 至 理 名 言 ， 与 这 一 思想 类 似 ， 和 大 家 一 起 瞻仰 。 


“Everything should be made as simple as possible, but not simpler.” 





一 一 Albert Einstein 


241 没 免费 午餐 理论 


古往今来 ,不管 是 牛顿 、 爱 因 斯 坦 与 霍金 那样 的 巨人 ， 还 是 无 数 默默 耕耘 的 科学 从 业者 ， 
抑或 是 诸如 我 们 这 些 仰 望 科学 殿堂 的 游客 ， 无 不 追寻 或 幻想 着 有 一 套 理论 ， 那 就 是 万 物理 论 。 为 
了 这 一 理论 不 知 有 多 少 人 “ 衣 带 渐 宽 终 不 悔 ， 为 伊 消 得 人 性 迟 ”。 而 在 机 器 学 习 界 ， 也 有 许多 人 
追寻 或 幻想 着 “超级 智能 算法 ”， 但 很 遗憾 ， 目 前 还 不 存在 这 样 一 个 “超级 智能 算法 ”。1997 
年 ，Wolpert 就 证 明了 这 样 一 个 理论 ， 被 称 之 为 没 免费 午餐 理论 (No Free Lunch Theorem) !!31, 
该 理论 说 明 所 有 可 能 的 数据 分 布 ， 所 有 分 类 算法 在 未 知 数据 中 都 有 着 相同 的 错误 率 。 换 而 言 
之 ， 就 是 没有 一 个 通用 的 算法 比 其 他 算法 好 ， 这 就 如 同 非常 复杂 的 概率 图 模型 在 所 有 任务 中 
的 平均 性 能 和 一 个 丢 硬 币 算法 〈 乱 猜 ) 的 平均 性 能 是 相同 的 。 其 实 就 相当 于 你 眼中 的 天 才 ， 
让 他 去 完成 所 有 任务 的 性 能 ， 其 实 和 一 个 普通 人 ， 甚 至 一 个 电 笨 的 人 并 没有 区 别 。 

不 知 你 听 完 后 会 不 会 绝望 ， 但 如 果 你 足够 聪明 的 话 ， 反 而 会 看 见 更 多 的 希望 。 注 意 该 理 
论说 的 是 所 有 情况 下 的 平均 性 能 ， 这 也 同时 说 明了 ,在 特定 任务 中 ,特定 的 算法 会 比较 优秀 ， 
这 就 好 比 “ 请 不 要 让 学 编程 的 你 去 修 电 脑 。” 

同时 也 意味 着 ， 研 究 机 器 学 习 的 目标 不 是 去 寻找 一 个 通用 的 学 习 算 法 或 者 绝对 的 最 好 算 
法 ， 相 反 ， 我 们 的 目标 是 去 寻找 在 我 们 关心 的 特定 领域 中 的 特定 算法 。 

其 实 这 也 为 平凡 的 我 们 找到 了 和 希望 的 大 门 ， 如 果 你 现在 不 是 很 顺心 ， 事 业 ， 学 业 不 是 很 
有 希望 。 相 信 我 ， 没 关系 的 ， 总 有 一 条 属于 你 发 光 的 路 ， 总 有 一 个 领域 你 会 比 别人 更 优秀 。 

没有 免费 午餐 理论 指明 ， 我 们 必须 设计 特定 的 机 器 学 习 算法 ， 在 特定 的 任务 中 执行 。 但 
什么 样 的 算法 适合 在 哪 一 种 领域 是 要 靠 丰 富 的 经 验 来 进行 选择 的 ， 不 过 请 记 住 “经 验 ” 不 是 
绝对 的 ， 若 一 种 算法 被 普遍 认为 在 某 种 任务 中 表现 不 好 ， 但 有 一 天 “幸运 女神 ”光顾 了 ， 你 
使 用 的 不 被 看 好 的 算法 就 会 完成 逆 歼 ， 那 你 也 就 可 能 从 此 走 上 “人 生 议 峰 ”， 所 谓 科 学 精神 ， 
凝结 成 一 点 就 是 质疑 精神 。 算 法 和 数据 是 很 有 趣 的 ， 总 有 一 个 算法 能 找到 “适合 ” 它 的 数据 ， 
也 总 有 数据 能 够 找到 “适合 ” 它 的 算法 ， 有 时 机 器 学 习 似 乎 不 在 讨论 机 器 学 习 本 身 ， 讨 论 的 
好 像 是 “运气 ”。 不 管 是 历史 上 还 是 在 生活 中 ， 你 是 否 思考 过 ， 许 多 将 相 名 侯 是 命中 注定 的 
天 选 之 子 , 还 是 上 帝 随 意 摇 仍 子 选 中 的 “幸运 儿 ”。 而 我 们 谈论 的 人 工 智 能 ,到 底 是 “人 工 ”， 
还 是 “智能 ”， 当 然 这 些 问 题 是 没有 答案 的 ， 但 多 思考 些 没有 答案 的 问题 ， 你 可 能 会 得 到 一 
些 不 一 样 的 快乐 。 
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2.4.2 正则 化 


目前 为 止 ， 我 们 修改 机 器 学 习 算 法 的 方法 只 是 去 增加 或 减 小 模型 的 能 力 。 而 这 种 调整 ， 
我 们 是 通过 增加 或 移 除 算法 可 选择 的 假设 空间 来 实现 的 。 假 设 我 们 的 数据 实际 是 由 二 次 多 项 
式 函 数 生成 的 ， 但 我 们 不 是 上 帝 ， 因 此 不 可 能 知道 真实 的 数据 生成 函数 ， 而 一 个 简单 合理 的 
方法 就 是 我 们 从 高 次 多 项 式 到 低 次 多 项 式 逐 个 地 尝试 。 

首先 ， 我 们 使 用 九 次 多 项 式 学 习 ， 那 很 有 可 能 就 会 产生 过 拟 合 现象 ， 然 后 使 用 八 次 多 项 
式 学 习 ， 再 测试 性 能 ;最 后 我 们 通过 这 种 外 而 不 舍 的 精神 ， 一 次 次 地 尝试 ， 测 试 到 二 次 多 项 
式 时 ， 其 方法 最 理想 ， 那 我 们 就 确定 了 学 习 算法 的 假设 空间 。 这 种 方法 先 不 提 时 间 问 题 ， 每 
次 都 要 重新 配置 学 习 算法 就 是 一 个 很 大 的 工程 量 ， 那 我 们 可 不 可 以 稍微 修正 一 下 我 们 从 高 次 
到 低 次 逐渐 尝试 的 耿直 方法 呢 ? 

我 们 从 高 次 到 低 次 尝试 的 过 程 其 实 就 是 在 限制 参数 的 个 数 ， 如 式 〈2.16) 所 示 的 九 次 多 
项 式 。 


f(x) 2 wa? +w,x° ew? wx! wu? (2.16) 
R 02.17) 是 二 次 多 项 式 ， 是 测试 中 的 最 佳 公式 。 
L(x) =0x? + Ox 0x8 +w ew ew (2.17) 


从 式 (2.17) 中 可 以 看 出 ， 其 实 就 是 高 次 项 的 系数 为 零 。 
而 我 们 放松 这 一 苛刻 限制 的 方式 ， 如 式 (2.18) Bros. EO 系数 改 为 较 小 的 系数 。 


F(x) = 0.000 b +0.0003 十 … 十 0.002 + mx? + мух! + мох (2.18) 


那 如 何 自动 地 去 调整 这 些 参数 呢 ? 其 实 很 简单 ， 只 需要 在 代价 函数 中 ， 加 入 一 项 参数 惩 
罚 即 可 。 如 式 (2.19) 所 示 ， 将 权重 衰减 “Weight Decay) "OMARK R H. 


J(w) = (y — f ow)?  Aw"w (2.19) 


其 中 参数 w 是 用 向 量 表示 的 ， 如 果 不 熟 悉 线性 代数 ， 简 单 地 理解 成 对 应 参数 的 平方 求 和 
即 可 ， 如 果 数 据 特征 维度 仅 为 一 维 ， 也 可 以 简单 转化 成 式 〈2.20) 的 样式 。 


Ли) = (у= f(x; w)y + Aw? (2.20) 


关于 上 述 的 参数 惩罚 你 可 能 会 一 脸 茫 然 ， 但 别 急 ， 我 们 将 会 在 第 4 章 详细 地 介绍 深度 学 
习 中 各 种 重要 的 参数 正则 化 方法 ， 那 会 非常 精彩 ， 而 现在 就 假装 你 已 经 知道 这 一 方法 的 原理 
即 可 。 

x (2.20) 中 的 4 用 于 控制 权重 的 稀 朴 性 。 当 4=0 时 ， 就 没有 任何 权重 惩罚 ， 如 果 4 变 
大 就 会 迫使 模型 权重 (参数 ) 变 小 。 如 图 2-5 所 示 ， 显 示 了 调整 4 值 对 于 模型 能 力 的 影响 ， 
其 中 图 2-5 (с) 为 4 趋 近 于 0， 模 型 退化 成 了 九 次 多 项 式 函 数 ， 由 此 造成 了 过 拟 合 现象 ， 而 
图 2-5 (a) 由 于 4 的 值 过 大 ， 模 型 退化 成 了 一 次 函数 ， 导 致 了 从 拟 合 现象 ;而 图 2-5 (b) 为 
选择 了 适当 的 4 值 ， 拟 合 到 了 正确 曲线 。 
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欠 拟 合 (参数 惩罚 过 大 ) BALES 过 拟 合 (SREM ) 
zo ту zo 
(а) (b) to 


2-5 权重 衰减 对 于 模型 能 力 影响 示意 图 


正式 地 来 说 ， 所 谓 正则 化 〈Regularization) 就 是 想 要 降低 泛 化 错误 率 但 不 降低 训练 错误 
率 而 修改 机 器 学 习 算法 的 一 系列 方法 。 没 免费 午餐 理论 已 经 说 明了 没有 最 好 的 机 器 学 习 算法 ， 
同样 地 ， 机 器 学 习 中 也 没有 最 好 的 正则 化 方式 。 因 此 ， 选 择 适 合 的 特定 任务 ， 特 定 算法 的 正 
则 化 方式 也 需要 进行 大 量 的 实验 。 


25 ” 超 参数 与 验证 集 


我 们 已 经 学 习 了 不 少 机 器 学 习 的 概念 ， 同 时 我 们 也 引入 了 不 少 符号 及 专业 术语 。 不 知 你 
是 否 已 经 被 这 些 概念 弄 糊涂 了 ， 现 在 我 们 就 对 这 些 内 容 进 行 梳理 。 我 们 可 以 很 粗浅 地 认为 ， 
机 器 学 习 其 实 就 是 通过 一 些 优化 手段 去 调整 数据 权重 w〈 参 数 ) 。 我 们 也 了 解 到 了 梯度 下 降 
中 的 学 习 率 a 〈 步 长 》 和 正则 化 中 权重 衰减 的 惩罚 因子 4 都 对 机 器 学 习 算 法 的 最 终 性 能 产生 
着 巨大 的 影响 ， 在 学 习 过 程 中 我 们 需要 不 停 地 调整 学 习 率 与 惩罚 因子 ， 那 么 如 何 去 区 分 这 些 
不 同 的 符号 呢 ? 

我 们 目前 说 到 的 学 习 ， 通 俗 点 也 可 以 说 是 去 寻找 最 佳 的 权重 w， 而 学 习 率 与 惩罚 因子 这 
些 设置 ， 其 实 就 是 帮助 我 们 去 寻找 最 佳 的 权重 ， 这 些 设置 控制 着 机 器 学 习 算法 的 行为 ， 我 们 
就 将 其 统称 为 超 参数 (Hyperparameters) o 

虽然 超 参数 与 参数 我 们 都 需要 去 调整 ， 但 通常 针对 参数 的 调整 叫 作 学 习 ， 而 对 超 参数 的 
调整 叫 作 选择 。 其 原因 在 于 ， 我 们 通常 在 训练 数据 集中 是 不 去 修改 超 参 数 的 。 接 下 来 引入 一 
个 例子 帮助 你 理解 参数 和 超 参数 ，“ 杨 老师 想 在 班 上 选择 一 个 “ 疏 树 小 冠军 ”， 但 大 家 都 不 
会 耻 树 ， 不 过 小 灿 、 小 嫣 和 小 婉 同学 热情 都 很 高 涨 。 那 杨 老师 就 指 着 一 棵 树 说 ， 你 们 先 学 会 
儿 疏 树 吧 ， 然 后 再 选 出 最 厉害 的 那个 。 于 是 小 嫣 同学 就 去 学 了 半 小 时 的 怜 树 技能 ， 结 果 摔 得 
鼻 青 脸 有 种， 不 过 至 少 还 是 学 会 了 疏 树 ; 小 嫌 同 学 就 比较 灵敏 学 得 快 ， 疏 得 也 快 : 小 灿 同 学 就 
不 得 了 ， 经 过 半 小 时 的 学 习 就 和 小 猴子 一 样 厉害 了 。 老 师 最 后 就 让 他 们 去 爬 另 外 一 棵 树 ， 最 
终 ， 小 灿 获 得 了 “ 猴 王 ”称号 。” 

以 上 例子 中 的 同学 各 自学 习 礁 树 的 过 程 就 相当 于 机 器 学 习 中 的 学 习 过 程 ， 需要 注意 的 是 ， 
她 们 都 是 学 习 扑 同 一 棵 树 ， 也 就 是 都 是 在 训练 数据 集中 学 习 。 而 老师 选择 哪 一 个 厉害 ， 就 相 
当 于 超 参 数 选择 ， 选 择 是 在 一 棵 新 树 上 进行 测试 的 。 这 里 需要 注意 的 一 个 小 知识 点 是 ， 超 参 
数 选择 的 是 同一 算法 的 不 同性 能 ， 或 者 是 对 同一 算法 族 的 选择 。 就 好 像 小 灿 、 小 奸 和 小 嫌 都 
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是 人 ， 而 且 还 都 是 女生 。 如 果 是 对 小 猴 、 小 猫 和 小 狗 的 选择 ， 那 就 不 算是 超 参 数 选择 了 ， 那 
是 不 同 算法 的 比较 了 。 

以 上 例子 中 还 有 一 个 重点 在 于 老师 是 让 她 们 在 一 棵 “新 树 ” 进 行 比赛 的 ， 需 要 特别 注意 
的 是 这 里 的 “新 树 ” 不 是 测试 数据 。 刚 开始 进入 机 器 学 习 的 “青椒 ” 们 常见 的 误区 就 在 于 此 ， 
我 们 这 里 所 说 的 “新 树 ”， 称 之 为 验证 数据 集 (validation set) 。 

简单 来 说 ， 我 们 将 已 知 数据 分 成 两 大 部 分 ， 一 部 分 用 于 训练 ， 一 部 分 用 于 测试 。 而 在 训 
练 数据 集中 我 们 又 可 分 为 两 部 分 ， 一 部 分 用 于 学 习 参 数 ， 我 们 称 为 训练 数据 集 ; 一 部 分 用 于 
选择 超 参数 ， 我 们 称 之 为 验证 数据 集 。 而 最 终 性 能 测试 的 数据 ， 我 们 称 为 测试 数据 集 。 

那 我 们 为 什么 要 这 样 划分 呢 ? 

我 们 先 来 玩 一 个 简单 的 摇 贷 子 游戏 ， 有 三 个 仍 子 ， 每 个 仍 子 有 6 个 面 ， 如 果 能 同时 摇 出 
三 个 6， 那 就 可 以 得 到 一 颗 棒 棒 糖 ， 奖 励 给 我 们 的 “天 选 之 子 ”。 
正常 情况 下 ， 摇 出 三 个 6 的 概率 可 看 做 独立 重复 事件 ， 其 概率 为 : 


“ Vn" )=( == 
P(“ 摇 出 豹子 的 概率 ”) e Sie 0.0046 


我 们 能 摇 出 “和 豹子 ”的 概率 只 有 0.46%， 就 连 百 分 之 一 都 没有 ， 假 设 我 们 班 共有 100 个 
同学 玩 这 个 游戏 ， 那 么 至 少 有 一 人 获得 棒 棒 糖 的 概率 又 为 多 少 呢 ? 


P( 整个 班级 至 少 一 人 获奖 ?=1 -GD = 0.371 


我 们 班 里 至 少 一 个 同学 摇 出 “豹子 ”的 概率 为 0.371， 看 来 棒 棒 糖 送出 去 的 概率 还 是 比较 
小 的 。 可 是 当 我 们 这 个 游戏 被 升级 为 “年 级 摇 骨 王选 拔 赛 ”时 ， 我 们 共有 7 个 班 ， 每 个 班 都 
可 以 参与 进来 。 假 设 每 个 班 人 数 相 同 ， 那 整个 年 级 至 少 一 人 摇 出 豹子 的 概率 又 为 多 少 呢 ? 


P(“ 整 个 年 级 至 少 一 人 获奖 ”)=1 -GE = 0.961 








我 们 整个 年 级 能 摇 出 “和 豹子 ”的 概率 就 高 达 0.961 了 ， 这 几乎 可 以 断定 ， 一 定 会 出 现 这 
么 一 个 * 天 选 之 人 ”了 。 

介绍 完了 以 上 的 小 游戏 ， 不 知 你 会 不 会 有 点 失落 。 机 器 学 习 算法 可 以 想象 成 在 空间 中 找 
“分 割 面 ”， 机 器 学 习 算 法 能 力 的 大 小 也 可 以 说 成 是 可 选 分 割 面 数量 的 多 少 。 机 器 学 习 从 某 
种 程度 上 而 言 不 就 是 去 寻找 我 们 游戏 中 的 “豹子 ” 吗 ? 一 个 人 要 摇 出 “豹子 ”的 概率 是 很 低 
的 ,但 让 7 个 班 、 每 班 100 个 人 去 摇 山 子 ， 出 现 “ 豹 子 ”的 概率 就 非常 大 了 。 我 们 天 真 地 以 
为 这 个 “天 选 之 人 ”就 是 赌 神 ， 但 其 实 他 和 我 们 一 样 普 通 。 

-个 班级 就 相当 于 一 套 超 参数 配置 下 的 学 习 算 法 ， 配 置 数 量 越 多 ， 就 相当 于 参加 比赛 的 
班级 越 多 。 我 们 在 所 有 超 参 数 配 置 中 找 一 个 最 佳 性 能 参数 ， 不 就 是 相当 于 在 所 有 班级 中 找 一 
Л “BE” щщ? 

我 们 的 模型 能 力 越 大 ， 那 最 终 在 训练 数据 集中 的 表现 也 就 会 越 好 ， 但 这 个 “好 ”是 乱 猜 
还 是 学 习 ， 就 需要 在 新 的 数据 上 测试 一 番 ， 但 我 们 并 没有 真正 的 新 数据 ， 我 们 只 能 划分 一 部 
分 训练 数据 去 充当 “新 数据 ”。 初 学 者 可 能 会 把 测试 数据 当成 验证 数据 来 用 ， 但 要 记 住 ， 验 
证 数据 是 帮 你 去 选择 超 参数 的 ， 虽 然 验证 数据 不 直接 参与 训练 过 程 ， 但 进行 超 参数 选择 的 时 
候 ， 其 实 也 间接 地 包含 在 整个 学 习 过 程 中 。 

那 怎样 去 划分 训练 数据 与 验证 数据 呢 ? 
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通常 使 用 80% 的 训练 数据 作为 训练 , 20% 的 数据 用 于 验证 。 由 于 验证 数据 也 用 于 “训练 ”， 
因此 验证 集 的 错误 率 是 要 低 于 真实 的 泛 化 错误 率 的 。 当 配置 出 了 最 佳 的 超 参数 时 ， 再 用 测试 
数据 集 去 测试 学 习 器 的 泛 化 性 能 。 

通常 将 数据 集 分 成 固定 的 训练 集 与 固定 的 验证 集 ， 使 用 训练 数据 集 去 学 习 ， 使 用 验证 数 
据 集 去 验证 训练 的 结果 。 但 测试 是 存在 偶然 性 的 ， 也 许 划分 出 来 的 训练 数据 与 验证 数据 差别 很 
大 ,可 能 我 们 的 机 器 学 习 算 法 性 能 也 挺 不 错 的 ， 但 由 于 验证 数据 的 问题 ， 而 变 成 了 “ 窦 娥 冤 ”; 
也 许 我 们 的 算法 其 实 一 般 , 但 恰恰 就 很 幸运 地 在 验证 数据 集 上 表现 优异 。 为 了 减少 这 种 偶然 性 ， 
使 用 平均 验证 错误 是 一 个 比较 好 的 方式 ， 而 K 折 交 叉 验证 (K-fold Cross-Validation) 53 就 是 其 
最 常用 的 一 个 方法 。 

K 折 交 叉 验 证 先 将 数据 集 分 割 成 大 小 相同 的 天 组 数据 集 ， 我 们 先 使 用 2~K 组 数据 集 作为 
训练 数据 集 进行 训练 ， 而 后 用 第 一 组 数据 集 进行 验证 ， 接 下 来 使 用 第 二 组 数据 集 作 为 验证 数 
据 ， 而 剩余 的 作为 训练 数据 ， 直 至 遍历 完 所 有 数据 集 ， 将 K 组 验证 错误 率 取 平 均值 ， 而 平均 
验证 错误 率 就 当 作 泛 化 错误 率 。 

天 最 常用 的 取 值 为 10， 称 为 10 折 交 叉 验证 。K 的 取 值 越 大 ， 划 分 的 数据 集 越 多 ， 那 最 终 
的 泛 化 错误 率 的 可 靠 性 就 越 高 , 但 相应 的 时 间 花 费 就 越 大 。 因 此 天 的 取 值 需要 在 实际 应 用 中 ， 
在 训练 时 间 与 可 靠 性 中 做 一 个 取舍 ， 其 也 是 一 对 鱼 和 熊 掌 。 


2.6 Softmax 编码 实战 


讲 了 太 多 的 理论 知识 ， 接 下 来 我 们 将 动手 实现 第 一 个 学 习 模型 一 Softmax09 多 分 类 器 。 
该 分 类 器 是 深度 学 习 中 网 络 输出 层 的 默认 分 类 器 ， 因 此 也 可 以 认为 是 最 简单 的 多 分 类 “神经 
网 络 ”。 首 先 我 们 会 介绍 该 模型 的 一 些 理论 知识 ， 然 后 你 需要 使 用 该 模型 并 结合 上 述 我 们 介 
绍 的 机 器 学 习 知 识 ， 完 整地 完成 CIFAR-10 分 类 图 像 识 别 任务 。 

假如 让 你 来 设计 一 个 分 类 互 斥 的 三 分 类 函数 你 会 怎么 设计 呢 ? 你 可 能 一 开始 会 有 点 不 知 
所 措 ， 但 记 住 ， 当 我 们 想 要 创造 点 什么 的 时 候 ， 我 们 首先 要 思考 的 其 实 是 我 们 拥有 着 什么 。 

可 以 把 三 分 类 任务 当 作 是 三 个 人 来 处 理 ， 特 定 的 人 就 代表 着 擅长 于 判断 特定 的 类 别 。 那 
每 个 人 可 以 做 些 什么 呢 ? 其 实 很 简单 ， 就 如 同 线性 回归 一 样 ， 每 个 人 只 是 对 数据 特征 进行 加 
权 求 和 。 如 式 (2.21) 所 示 , 将 数据 维度 乘 以 权重 再 求 和 , 也 将 其 称 为 评分 函数 (score function) 。 


m 
z= wx (3$ 2:21) 
i=0 


= 就 表示 每 个 人 心中 的 分 类 得 分 ， 有 三 个 人 ， 也 就 会 有 三 个 = 值 ， 选 取 其 中 最 高 分 ， 也 就 
是 “最 自信 ”的 分 值 即 可 。 

那 这 就 有 一 个 问题 ， 比 如 一 个 识别 小 猫 的 任务 ， 得 分 可 能 是 (50,.40,45)， 也 可 能 是 (25,1.2)。 
那么 请 问 哪 一 组 评分 系统 好 ? 虽然 两 组 中 第 一 列 都 是 最 高 得 分 ， 但 明显 后 者 的 相对 得 分 更 为 
突出 ， 那 就 相当 于 第 二 组 中 的 第 一 列 ， 比 其 他 列 有 更 高 的 自信 心 。 因 此 除了 关注 最 高 分 以 外 ， 
还 要 关心 其 相对 比值 ， 也 就 是 将 各 自得 分 再 除 以 总 分 即 可 。 

如 式 〈2.22) 所 示 ， 就 是 我 们 设计 的 分 类 公式 。 非 常 简单 ， 我 们 仅仅 将 所 有 人 的 分 数 之 
和 作为 公分 母 ， 然 后 将 每 个 人 各 自 的 分 数 作为 分 子 ， 最 后 我 们 就 得 到 了 总 和 为 1 的 多 分 类 函 
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数 ， 这 一 步 也 叫 归 一 化 概率 (Normalized Probabilities) 。 


z 
Хо) = : г? (2.22) 
z +z +25 ` 
z 


我 们 将 式 (2.21) 与 式 (2.22) 合并 一 下 ， 得 到 式 (2.23) ， 就 是 其 完整 的 表达 式 ， 虽 然 
看 起 来 比较 复杂 ， 但 是 所 表达 含义 却 非常 简单 。 


Drow 
1 m 
JU) a == T UPS GR 2.23) 
kw "UI m » 3 
i=0 X 


上 述 表 达 式 还 缺点 东西 ， 因 为 我 们 想 要 预测 得 分 比 尽 可 能 的 高 ， 但 得 分 函数 是 线性 的 ， 
其 增长 幅度 有 限 。 那 可 不 可 以 在 不 影响 其 单调 性 的 情况 下 ， 使 其 相对 得 分 更 显著 呢 ? H N 
(2.24) 所 示 ， 这 就 是 我 们 修改 之 后 的 表达 式 ， 由 于 指数 函数 是 一 个 单调 函数 ， 因 此 这 样 的 
修改 并 不 会 对 表达 式 含义 有 任何 影响 。 


m 
o Mii 


Ze (2.24) 
相应 地 ， 我 们 将 这 些 改变 全 部 写 在 一 起 ， 就 是 式 (2.25) 。 
ертн 
1 Р 
жык Dito Wix, 
IO" ges Y^ (225) 
е? . 
j=l J eir 
3 


我 们 将 其 推广 至 上 类 ， 如 式 (2.26) 所 示 ， 这 就 是 Softmax 函数 表达 式 。 


eXfowi 
fo-—— 5. 
E mE (2.26) 
ja J 
eto" 


第 一 眼看 见 该 表达 式 ， 可 能 会 有 点 抓 狂 ， 但 其 实 这 并 不 复杂 。 我 们 之 所 以 花 那 么 多 “无 
用 ”的 时 间 来 推导 出 该 公式 ， 只 是 想 告诉 你 ， 只 要 你 不 再 害怕 ， 不 再 抗拒 时 ， 静 下 心 来 你 就 
会 发 现 这 有 多 简单 。 

Softmax 函数 的 输出 是 一 个 大 维 向 量 ， 比 如 函数 输出 为 [0.1.0.3.0.7]， 而 该 数据 的 真实 标记 
为 第 二 类 , 其 向 量 表示 就 应 该 是 [0,1.0]。 那 我 们 如 何 去 刻 画 其 误差 呢 ? 你 也 许 会 想到 将 各 自 的 
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误差 加 起 来 ， 比 如 使 用 均 方 误差 作为 代价 函数 ， 那 么 该 数据 的 误差 就 应 该 如 下 所 示 。 
J(x)=(0.1) +(0.3-1)? +(0.7)° 


但 实际 上 我 们 多 算 了 一 些 误差 ， 因 为 这 三 个 输出 是 彼此 依赖 的 ， 调 整 其 中 一 个 ， 其 余 都 
会 受到 影响 。 因 此 正确 的 代价 误差 应 该 如 式 〈2.27) 所 示 。 


J(x) = (03-1) (2.27) 


虽然 Softmax 的 输出 为 个 输出 ,但 我 们 仅 对 其 真正 关键 的 那 一 个 输出 进行 修改 就 可 以 。 
为 了 简化 接 下 来 的 描述 ， 我 们 将 引入 如 式 〈2.28) 所 示 的 示例 函数 。 


WU RARAN 
ias fy 表达 式 为 假 (2.28) 
其 使 用 方法 非常 简单 ， 表 达 式 的 输出 为 真 则 输出 1， 表 达 式 的 输出 为 假 则 输出 0， 例 如 : 
1(243-4]-0, I{1+1=2}=1. 
Softmax 代价 函数 就 可 表示 为 式 (2.29) ， 其 中 表示 数据 的 真实 类 标 ， 比 如 =3， 就 表 
示 该 数据 为 第 三 类 数据 ， 该 代价 函数 所 表达 的 含义 其 实 就 为 遍历 所 有 输出 ， 将 真实 类 标 对 应 
的 输出 的 误差 ， 作 为 我 们 的 代价 函数 。 
上 гоне 
Јо) = Уу = jin) (2.29) 


= 

е мх 

Е Y 
yal 


对 我 们 来 说 ， 更 为 实际 的 可 能 是 梯度 的 计算 公式 ， 因 为 使 用 代价 函数 推导 梯度 计算 公式 
后 ， 我 们 才能 根据 其 修改 权重 。 这 里 不 进行 Softmax 的 梯度 推导 ， 直 接 给 出 梯度 计算 公式 ， 
如 式 (2.30) 所 示 。 


Ун?” x ty - J1- p,09) (2.30) 
ee 
其 中 ， Pi) = у, 若 你 不 太 习 惯 式 02.30) 的 写法 ， 可 以 写成 式 (2.31) ， 可 能 
NX 


更 有 助 于 记忆 。 
—x(l-p. Ў =i 
Yw- l x,(1- p,G)) у=} ub 
x, p; (x), yt 
XH ВИВИЕН, 再 将 式 (2.31) 换 一 种 写法 就 得 到 式 (2.32) 。 


|= f(x), у=1 
v x, f(x), ysl (2.32) 


JC AE Ji TH PISA AR EE EAR. 
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° Softmax #4 704 


Softmax 存在 着 一 个 问题 ， 那 就 是 参数 元 余 。 假 设 我 们 进行 二 分 类 任务 ，Softmax 的 输出 
为 一 个 二 维 向 量 ， 就 相当 于 有 着 两 套数 据 参数 ， 在 逻辑 回归 中 ， 预 测 生病 的 概率 为 0.7， 那 不 
生病 的 概率 很 自然 就 是 0.3。 而 使 用 Softmax 的 方法 使 我 们 计算 出 生病 的 概率 为 0.7， 但 同样 
也 计算 出 了 不 生病 的 概率 为 0.3。 因 此 Softmax 神经 元 总 是 比 实际 需要 多 了 一 套 参数 ， 但 这 相 
比 于 神经 网 络 的 上 亿 人 参数， 简直 微乎其微 ， 这 里 仅 作为 冷门 知识 了 解 即 可 。 


2.6.1 ”编码 说 明 


在 本 章 的 练习 中 我 们 将 要 逐步 完成 以 下 内 容 。 


熟悉 使 用 CIFAR-10 数据 集 ; 

编码 softmax_loss_naive 函数 ， 使 用 显 式 循环 计算 损失 函数 以 及 梯度 ; 

编码 softmax loss vectorized 函数 ， 使 用 向 量化 表达 式 计算 损失 函数 及 其 梯度 ; 
编码 随机 梯度 下 降 算法 ， 训 练 一 个 Softmax 分 类 器 ; 


完整 的 教程 请 参考 “第 2 章 练习 -实现 softmax.ipynb” 文 件 顺序 练习 ， 该 处 仅仅 对 重要 内 
容 进 行 解 释 说 明 。 在 本 章 结尾 将 会 提供 参考 代码 , 希望 你 “走投无路 ” IN FE AS ICH "HEU S 
请 记 住 “Practice makes perfect”。 

首先 启动 Jupyter: 如 图 2-6 所 示 ， 启 动 dos 窗口 ， 将 路 径 转 换 到 文件 ， “第 2 章 练习 - 实 
Jl softmax.ipynb” 所 在 路 径 ， 然 后 输入 : jupyter notebook， 再 按 Enter 键 确 认 。 这 时 ， 浏 览 器 
会 自动 启动 Jupyer， 单 击 本 章 练习 即 可 。 


CaP CSAS 





Hi 1592: 命令 提示 答 -jupyter notebook = 8 X 


icrosoft Windows [版 本 10.0.14393] 
(с) 2016 Microsoft Corporation. 保留 所 有 权利 . 


|С: \WINDOWS\system32>ed f:\DLAction 
|С: \WINDOWS\sys tem32>f- 


ыыы фиг notebook 
19:16:2 NotebookApp] [nb conda kernels] enabled, 2 kernels found 
ü 19:16:28. 764 Notebook^pp] [nb-anacondacloud] enabled 
[I 19:16 379 NotebookApp] \u2713 nbpresent HTML export ENABLED 
] 379 Notebookapp] \u2717 nbpresent Н PDF export DISABLED: No module named 'nbbrovserpdf' 





Г 464 Notebookapp] [nb conda] enabled 
[T 19:16:29. 701 NotebookApp] Serving notebooks from local directory: f:\DLAction 
16:29. 701 NotebookApp] 0 active kernels 





701 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ 
9: 16: 29.701 NotebookApp] Use Соптго1-С to stop this server and shut down all kernels (twice to skip confirmation). 





2-6 启动 Jupyter 


首先 , 我 们 需要 导入 各 模块 ， 由 于 Python 2.7+ 系 列 在 默认 情况 下 不 支持 中 文字 符 ,， 因此， 
你 需要 在 每 个 文件 的 开头 添加 一 行 “#-*- coding: utf-8 -*-”， 才 能 使 用 中 文 注释 ， 否则 编译 器 
将 会 抛 出 编码 异常 错误 。 本 章 所 需 完 成 的 代码 模块 全 部 存放 在 文件 
“ DLAction/classifiers/chapter2 ”中 ， 而 诸如 数据 导入 和 梯度 检验 等 模块 被 统一 存放 在 了 
“DLAction/utils” 目 录 下 ， 读 者 可 自行 查看 。 
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库 导 入 代码 块 : 
#-*- coding: utf-8 -*- 





import random 

import numpy as np 

from utils.data utils import load CIFARIO 
from classifiers.chapter2 import * 

import matplotlib.pyplot as plt 

%matplotlib inline 

plt.rcParams[ 'figure.figsize' ] = ( 10.0, 8.0 ) 
%load_ext autoreload 


%autoreload 2 








2.6.2 ”熟练 使 用 CIFAR-10 数据 集 


CIFAR-10 是 一 套 包含 了 60000 张 ， 大 小 为 32X32 的 十 分 类 图 片 数据 集 ， 其 中 50000 3K 
图 片 被 分 为 了 训练 数据 ，10000 张 图 片 被 分 为 测试 数据 ， 存 放 在 
“DLAction/datasets/cifar-10-batches-py” 目 录 下 ， 也 可 以 通过 访问 互联 网 地 址 进行 下 载 
http://www.cs.toronto.edu/~kriz/cifar.html。 由 于 我 们 使 用 的 是 彩色 图 片 ， 因 此 每 张 图 片 都 会 有 
三 个 色 道 。 当 我 们 将 磁盘 图 片 导入 到 内 存 时 ， 该 数据 集 存放 在 形状 如 下 的 NumPy 数组 中 。 


CIFAR-10 数据 格式 : 
训练 数据 (数据 个 数 ， 数 据 维 度 ) : (50000L, 32L, 32L, 3L) 


训练 数据 标记 (数据 标记 个 数 ，》: (50000L,) 
测试 数据 〈 数 据 个 数 ， 数 据 维度 ) : (10000L, 32L, 32L, 3L) 
测试 数据 标记 〈 数 据 标记 个 数 ，) : (10000L.) 





BA CIFAR-10 数据 的 各 项 操作 已 经 被 封装 进 了 load_CIFAR10 函数 中 , 只 需要 载 入 数据 
存放 目录 ， 就 可 以 得 到 划分 好 的 训练 数据 、 训 练 数据 类 标 、 测 试 数据 和 测试 数据 类 标 。 


导入 CIFAR-10 数据 代码 块 : 

# 导入 CIFAR-10 数据 。 

cifarl0 dir = 'datasets/cifar-10-batches-py' 

X train, y train, X test, y test = load_CIFAR10( cifar10_dir ) 
# 查看 数据 。 

print "训练 数据 (数据 个 数 ， 数 据 维度 ) :' X_train.shape 
print "训练 数据 标记 (数据 标记 个 数 ，)》:',y_train.shape 
print "测试 数据 (数据 个 数 ， 数 据 维度 ) :', X_test.shape 
print ' 测 试 数据 标记 数据 标记 个 数 ，》:',y_test.shape 














如 果 觉 得 这 些 数据 还 是 有 些 抽象 ， 你 也 可 以 使 用 下 列 的 代码 块 ， 可 视 化 地 查看 载 入 
CIFAR-10 数据 集 图 片 。 
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CIFAR-10 数据 可 视 化 代码 块 : 
# 数据 可 视 化 . 
classes = [ 'plane', 'car’, 'bird', 'cat’, ‘deer’, 'dog’, 'frog’, 'horse', 'ship', 'truck' ] 





num classes = len( classes ) 
samples per class = 7 
for y, cls in enumerate( classes ): 
idxs — np.flatnonzero( y train — y ) 
idxs = np.random.choice( idxs, samples per class, replace = False ) 
for i, idx in enumerate( idxs ): 
plt idx =i * num classes + y + 1 
plt.subplot( samples per class, num classes, plt idx ) 
plt.imshow( X train[ idx J.astype( 'uint8' ) ) 
plt.axis( 'off ) 
ifi—0: 
plt.title( cls ) 
plt.show( ) 








ipid i NEN а fog horse ӱр tuck 
Т ТЕРА: 
“ү G F15 ES ETE 
э ИЖ ЕРА ШКА 
ОЕ ER- bah Ж Е z 
= 1. S Ea» 
S462 (SDA 
EE ie 


图 2-7 CIFAR-10 数据 集 
。 ”数据 预 处 理 
数据 划分 : 原始 数据 量 可 能 稍 大 ， 这 样 不 利于 我 们 的 编码 测试 ， 因 此 我 们 会 采样 250 条 


训练 数据 作为 样本 训练 数据 X_sample， 采 样 100 条 数据 作为 样本 验证 数据 X_validation， 作 
为 编码 阶段 测试 使 用 。 
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数据 形状 转换 : 原始 的 数据 集 可 看 成 是 四 维 数组 (数据 个 数 ， 宽 ， 高 ， 色 道 )， 这 样 不 太 方 








便 使 





目 ， 因 此 我 们 将 ( 宽 ， 高 ， 色 道 ) 压 缩 在 一 维 上 ， 其 数据 形式 变 为 (数据 个 数 ， 数 据 维度 )， 








而 数据 维度 = 宽 X 高 X 色 道 。 数 据 形状 转换 代码 如 下 所 示 。 





数据 形状 转换 代码 块 : 





X train=np.reshape( X train, ( X train.shape[ 0 ], -1 ) ) 

X val = np.reshape( X val, ( X val.shape[ 0 ], -1 ) ) 

X test = np.reshape( X test, ( X test.shape[ 0 ], -1 ) ) 

X sample = np.reshape( X sample, ( X sample.shape[ 0 ], -1 ) ) 











数据 归 一 化 (Normalization》: 在 通常 情况 下 ， 我 们 需要 对 输入 数据 进行 归 一 化 处 理 ， 
也 就 是 使 得 数据 呈 均 值 为 零 ， 方 差 为 1 的 标准 正 态 分 布 。 由 于 图 像 的 特征 范围 在 [0,255] 


其 





方差 已 经 被 约束 了 ,我们 只 需要 将 数据 进行 零 均值 中 心 化 处 理 即 可 , 不 需要 将 数据 压缩 在 [-1,1] 


范围 


(当然 ， 也 可 以 进行 此 项 处 理 ) 。 因 此 在 处 理 时 ， 只 需要 减 去 其 数据 均值 即 可 。 注 意 : 


我 们 计算 的 是 训练 数据 的 均值 ， 而 不 是 全 部 数据 的 均值 ， 你 需要 时 刻 警 惕 不 要 “ 偷 看 期 末 试 
卷 ”， 测 试 数据 是 “未 知 的 ”。 数 据 归 一 化 实现 代码 如 下 所 示 。 


图 像 数 据 归 一 化 代码 块 : 


mean image = np.mean( X train, axis — 0 ) 


X train -= mean image 


X val-- mean image 


X test-— mean image 





X sample = mean image 


添加 偏 置 项 : 偏 置 项 (bias) 也 可 以 看 作 是 线性 函数 的 常数 项 或 截 距 ， 在 实际 中 并 不 特别 
地 区 分 偏 置 项 参数 与 权重 参数 ， 并 且 其 对 于 训练 效果 的 影响 也 非常 有 限 。 但 为 了 遵照 传统 ， 
我 们 还 是 将 其 默认 地 使 用 在 算法 中 ， 通 过 在 数据 中 增加 一 维 值 为 常数 1 的 特征 作为 bias 对 应 
的 输入 特征 ， 然 后 将 其 统一 到 权重 参数 中 ， 最 终 的 图 片 数 据 维度 就 为 dim=32X32X3+1。 其 
实现 的 代码 如 下 所 示 。 





数据 中 加 入 偏 置 项 代码 块 : 





X train = np.hstack( [ X train, np.ones( ( X train.shape[ 0],1))]) 

X_val = np.hstack( [ X val, np.ones( ( X val.shape[ 0], 1 ))]) 

X test = np.hstack( [ X test, np.ones( ( X_test.shape[ 0]. 1 )) ] ) 

X sample = np.hstack( [ X sample, np.ones( ( X sample.shape[ 0 ]. 1 )) ] ) 





我 们 将 这 些 步 又 统统 封装 在 get_CIFAR10_data() 函 数 中 。 运 行 该 函数 ， 将 得 到 以 下 结果 。 





X train, y train, X val, y_val, X test, y test, X sample, y sample = get CIFARIO data( ) 
Train data shape: (49000L, 30731.) 

Train labels shape: (49000L,) 

Validation data shape: (100L, 30731) 
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Validation labels shape: (100L,) 





Test data shape: (10000L, 30731) 
Test labels shape: | (10000L.) 
sample data shape: (2501, 3073L) 
sample labels shape: (250L,) 





263 ” 显 式 循 环 计算 损失 函数 及 其 梯度 


首先 使 用 循环 的 方式 实现 Softmax 分 类 器 的 损失 函数 〈 代 价 函 数 ) ， 打 开 
“DLAction/classifiers/chapter2/softmax_loss.py” 文 件 并 实现 softmax_loss_naive 函数 。 





Softmax 损失 函数 伪 代 码 : 

1. 从 训练 数据 中 采样 一 小 批 数 据 ; 

2. 计 算 每 条 数据 对 应 的 各 得 分 函数 值 ; 

3. 计 算 每 条 数据 得 分 函数 的 指数 得 分 ; 

4. 计 算 每 条 数据 的 总 得 分 ; 

5. 将 各 类 得 分 除 以 总 得 分 ， 计 算 每 条 数据 的 分 类 概率 ; 
6. 计 算 每 条 数据 的 损失 值 ; 

7. 计 算 每 条 数据 产生 的 梯度 值 ; 

8. 将 6 中 的 各 条 数据 损失 值 累加 起 来 ， 计 算 平均 损失 值 ; 
9. 将 8 中 的 平均 损失 值 加 上 权重 衰减 损失 值 ; 

10.38 7 中 各 条 数据 产生 的 梯度 值 累 加 起 来 ， 计 算 平均 梯度 值 ; 
11. 将 10 中 的 平均 梯度 值 再 加 上 权重 衰减 梯度 。 


TER: 请 尽量 少 地 使 用 循环 ， 使 用 的 循环 越 少 ， 就 可 以 节约 更 多 的 计算 时 间 。 需 要 逐渐 
地 适应 向 量化 计算 表达 ， 因 为 采用 向 量化 表达 ， 既 书写 简洁 ， 使 得 代码 的 可 读 性 大 大 提高 ， 
不 容易 产生 错误 ， 又 极 大 地 提高 了 运算 效率 。 例 如 计算 每 类 得 分 的 指数 ， 就 可 以 直接 使 用 
Scores_E=np.exp(X[il.dot(W)) 函 数 ， 更 多 NumPy 的 用 法 请 参考 第 1 章 1.3 Python 简易 教程 。 














softmax loss naive 代码 块 : 
def softmax_loss_naive(W, X, y, reg): 





使 用 显 式 循环 版 本 计算 Softmax 损失 函数 。 
N 表示 : 数据 个 数 ，D 表示 : 数据 维度 ，C: 表示 数据 类 别 个 数 。 
Inputs: 
- W: 形状 ( D, С) numpy 数组 ， 表 示 分 类 器 权重 (参数 )。 
- X: 形状 ( N, D ) numpy 数组 ， 表 示 训 练 数据 。 
- y: 形状 ( N, ) numpy 数组 ， 表 示 数 据 类 标 ， 
其 中 y[i]=c 意味 着 X[i ] 为 第 c 类 数据 ，c 取 值 为 [ 0, с). 
- reg: 正则 化 惩罚 系数 。 
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Returns ”二 元 组 (tuple ): 

-loss: 数据 损失 值 。 

-dW: 权重 W 所 对 应 的 梯度 ， 其 形状 和 W 相同 。 

# 初始 化 损失 值 与 梯度 。 

loss = 0.0 

dW = np.zeros_like( W ) 
HBHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHBHHHHHBHHHHHBHHHHHRHHHHBHHHE 
# 任务 : 使 用 显 式 循 环 实现 softmax 损失 值 loss 及 相应 的 梯度 dW 。 # 
# 提示 : WR BRAD RB bui. GT EM. 
TIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHBHHHHHBHHHHHBHHHHHHHHHHEHNE 





THHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHBHHHHHHBHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHE 
# 结束 编码 # 
THHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHE 








return loss, dW 


完成 了 上 述 代 码 后 , 要 怎样 判断 实现 是 否 正 确 ? 一 个 比较 直接 的 方法 就 是 计算 其 损失 值 。 
在 不 加 入 权重 惩罚 的 情况 下 ， 所 实现 的 Softmax 损失 值 应 该 接近 于 -log(0.1)。 为 什么 是 0.1? 
如 果 是 5 分 类 任务 ， 该 损失 值 又 该 接近 于 多 少 呢 ? 损失 值 验证 代码 块 如 下 所 示 。 


损失 值 验证 代码 块 : 





from classifiers.chapter2.softmax_loss import softmax_loss_naive 


import time 

# 初始 化 权重 。 

W = np.random.randn( 3073, 10 ) * 0.0001 

loss, grad = softmax loss naive( W, X sample, y sample, 0.0 ) 
# 你 的 初始 化 损失 值 应 该 接近 于 -log( 0.1 ). 

print ' 你 实现 的 softmax 损失 值 loss: %f % loss 

print' 正 确 的 损失 值 : %f % ( -np.log( 0.1) ) 








其 正确 结果 近似 于 这 样 。 


损失 值 验证 代码 执行 结果 : 
你 实现 的 softmax 损失 值 loss: 2.329645 
正确 的 损失 值 : 2.302585 


接 下 来 我 们 进行 梯度 检验 ， 精 确 的 数值 梯度 是 使 用 极限 的 方式 求解 梯度 ， 如 式 (2.33) 
所 示 。 
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ш б”+&)—/б»-—е) 
2€ 
数值 梯度 的 优势 是 比较 精确 ， 但 缺点 也 很 明显 ， 那 就 是 速度 较 慢 。 因 此 我 们 通常 求解 代 
价 函 数 的 导 函 数 来 替换 数值 梯度 ， 但 导 函 数 在 人 工 实 现时 很 容易 出 错 ， 我 们 已 经 实现 了 以 极 
限 方式 的 数值 梯度 求解 ， 那 么 可 以 使 用 该 函数 检验 实现 的 梯度 函数 。 运 行 下 列 代码 ， 相 对 误 
差 应 该 小 于 le-7。 


梯度 验证 代码 块 : 


# 使 用 数值 梯度 检验 已 实现 的 softmax_loss_naive. 
# 实现 的 梯度 应 该 要 接近 于 数值 梯度 。 
from utils.gradient_check import grad_check sparse 


Vw =li (2.33) 








loss, grad = softmax_loss_naive( W, X_sample, y_sample, 0.0 ) 

print ' 检 验 无 权重 衰减 的 softmax loss naive # RE! 

f = lambda w: softmax loss naive( w, X sample, y sample, 0.0 )[ 0 ] 
grad numerical = grad check sparse( f, W, grad, 10 ) 

print 检验 加 入 权重 衰减 项 后 的 softmax 1055 naive 梯度 : 

loss, grad = softmax loss naive( W, X sample, y sample, le2 ) 


f = lambda w: softmax loss naive( w, X sample, y sample, 1е2 )[ 0 ] 


grad numerical = grad check sparse( f, W, grad, 10 ) 





其 正确 的 结果 应 该 如 下 所 示 。 


softmax_loss_naive 函数 梯度 检验 结果 : 

检验 无 权重 衰减 的 softmax_loss_naive 梯度 : 

numerical: 1.862868 analytic: 1.862868, relative error: 2.737970e-08 
numerical: -0.456766 analytic: -0.456766, relative error: 4.118098e-08 
numerical: -1.964069 analytic: -1.964069, relative error: 1.885641e-08 
numerical: 0.293490 analytic: 0.293490, relative error: 1.564932e-08 
numerical: 0.370430 analytic: 0.370430, relative error: 1.449973e-07 
numerical: -1.669150 analytic: -1.669150, relative error: 3.227082e-08 
numerical: -3.304948 analytic: -3.304948, relative error: 1.310918е-08 
numerical: -1.348797 analytic: -1.348797, relative error: 3.011066e-08 
numerical: -1.251505 analytic: -1.251505, relative error: 8.791012e-08 
numerical: -4.628194 analytic: -4.628 194, relative error: 4.320206e-10 
检验 加 入 权重 衰减 项 后 的 softmax_loss_naive 梯度 : 

numerical: -0.714441 analytic: -0.714441, relative error: 2.873075e-08 
numerical: 1.076180 analytic: 1.076180, relative error: 5.406905e-08 
numerical: -0.478508 analytic: -0.478508, relative error: 1.251312e-08 
numerical: 0.281967 analytic: 0.281967, relative error: 4.291053e-08 
numerical: -2.360461 analytic: -2.360461, relative error: 1.525908e-10 
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numerical: 2.422492 analytic: 2.422491, relative error: 1.830325e-08 
numerical: -4.721960 analytic: -4.721960, relative error: 1.496757e-08 
numerical: 2.231498 analytic: 2.231497, relative error: 4.564722e-08 


numerical: - 1.063935 analytic: -1.063935, relative error: 6.914466e-08 
numerical: 0.784813 analytic: 0.7848 13, relative error: 4.133483e-08 





264 ”向 量化 表达 式 计算 损失 函数 及 其 梯度 


完成 显 式 循环 计算 后 ， 我 们 将 损失 函数 与 梯度 的 计算 过 程 ， 使 用 完全 向 量 形式 再 完成 一 
遍 。 向 量 形式 不 仅 书写 简洁 ， 并 且 也 极 大 地 加 快 了 执行 效率 ， 对 于 编程 人 员 来 说 ， 一 开始 使 
用 向 量化 表达 可 能 十 分 痛苦 ， 但 当 慢 慢 熟 悉 后 会 对 其 着 迷 。 打 开 
“DLAction/classifiers/chapter2/softmax_loss.py” 文 件 ， 文 件 实现 了 sofimax loss vectorized В 
数 。 可 以 参考 第 1 章 中 介绍 的 NumPy 广播 的 用 法 ， 不 到 山 穷 水 尽 ， 请 不 要 偷 看 参考 代码 。 

dem: 比如 计算 得 分 时 ， 可 以 一 次 性 求解 所 有 训练 数据 scores=np.dot(X,W)， 此 时 scores 
变 成 形状 为 (数据 个 数 ， 分 类 个 数 ) 的 矩阵 。 输 入 参数 ?为 一 个 类 标 向 量 (数组 )， 若 y[=2 就 
表示 第 i 条 数据 的 正确 分 类 为 2?， 但 Softmax 分 类 器 生成 的 分 类 得 分 概率 为 一 个 矩阵 (二 维 数 
组 )。 因 此 ， 需 要 将 类 标 向 量 y 转换 为 one-hot (向 量 中 类 标 位 为 !， 其 余 为 零 ) Шш y[i]=2 
的 类 标 ， 转 化 为 one-hot 就 为 [0,0,1,0,0,0,0,0,0,0]。 我 们 可 以 使 用 以 下 代码 进行 one-hot 形式 的 
类 标 矩 阵 转换 : y_trueClass[range(num_train),y]=1.0， 其 形状 为 (数据 个 数 ， 分 类 个 数 )， 这 样 就 
可 以 在 后 续 的 计算 中 使 用 向 量 计算 。 


softmax loss vectorized 代码 块 : 





def softmax_loss_vectorized( W, X, y, reg ): 


"m 


Softmax 损失 函数 ， 使 用 矢量 计算 版 本 。 
输入 、 输 出 格式 与 softmax_loss_naive 相同 。 


# 初始 化 损失 值 与 梯度 。 

loss = 0.0 

dW =np.zeros_like( W ) 

‘HEHEHE HHHH HHHH HH HHH HH HHH HHHH HHH HHH HHH HHH HH HR HHHH HH HHHH HHH HHH HHHHH 

# 任务 : 不 使 用 显 式 循环 计算 softmax 的 损失 值 loss 及 其 梯度 dW. # 
# 提示 : 如 果 不 愤 ， 将 很 容易 造成 数值 上 溢 。 别 忘 了 正则 化 。 # 
GHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHHRHH ER 


THHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 





# 结束 编码 # 
THHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
return loss, dW 
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接 下 来 ， 使 用 前 面 已 实现 的 softmax_loss_naive 与 向 量化 版 本 进行 比较 ， 完 全 向 量化 版 本 应 
该 和 显 式 循环 版 本 的 结果 相同 ， 但 前 者 的 计算 效率 应 该 快 得 很 多 。 运 行 下 列 代码 进行 代码 检验 。 


softmax_loss_vectorized 检验 代码 块 : 


tic = time.time( ) 





loss_naive, grad_naive = softmax_loss_naive( W, X_sample, y_sample, 0.00001 ) 
toc = time.time( ) 

print ' 显 式 循环 版 loss: %e ”花费 时 间 %fs' % ( 1055 naive, toc — tic ) 

from classifiers.chapter2.softmax loss import softmax loss vectorized 

tic = time.time( ) 

loss vectorized, grad vectorized — softmax loss vectorized( W, X sample, y sample, 0.00001 ) 
toc = time.time( ) 

print "向 量化 版 本 loss: %e ”花费 时 间 %fs' % (loss vectorized, toc — tic ) 
grad difference = np.linalg.norm( grad naive - grad vectorized, ord = 'fro' ) 

print ' 损 失误 差 : %f % np.abs( loss naive - 1055 vectorized ) 

print ' 梯 度 误 差 : %f % grad. difference 








其 检验 结果 大 致 应 该 如 下 所 示 。 


softmax_loss_vectorized 代码 检验 运行 结果 : 

显 式 循环 版 loss: 2.330326e+00 ”花费 时 间 0.045000s 
向 量化 版 本 loss: 2.330326e+00 ”花费 时 间 0.004000s 
损失 误差 : 0.000000 

梯度 误差 : 0.000000 








2.6.5 ”最 小 批量 梯度 下 降 算 法 训练 Softmax 分 类 器 


完成 了 Softmax 的 核心 代码 后 ， 接 下 来 我 们 就 使 用 最 小 批量 梯度 下 降 算 法 训练 Softmax 
分 类 器 。 在 训练 阶段 ， 该 过 程 十 分 简单 ， 基 本 上 就 是 采样 数据 ， 然 后 调用 Softmax 函数 计算 
梯度 ， 之 后 再 更 新 权重 ， 然 后 重复 上 述 执行 过 程 。 如 下 所 示 ， 为 该 过 程 的 算法 伪 代 码 。 
Softmax 训练 过 程 伪 代 码 : 
输入 : 数据 、 数 据 类 标 、 学 习 率 、 权 重 衰减 因子 、 和 迭代 次 数 和 批量 大 小 。 
For i in ЖИИ: 

1 

根据 批量 大 小 进行 数据 采样 ; 
计算 当前 采样 数据 的 损失 值 、 梯 度 值 ; 
存储 当前 损失 值 ; 
更 新 权重 ; 
j 
返回 : 历史 损失 值 
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需要 注意 的 是 ， 我 们 的 计数 是 从 0 开始 的 ，10 分 类 任务 其 y 的 最 大 值 为 9， 因 此 
num_classes=np.max(y)+1。 在 采样 时 ， 重 复 采样 或 非 重复 采样 都 可 以 接受 ， 但 重复 采样 的 执 
行 效率 要 高 些 ， 可 以 使 用 重复 采样 加 快 执行 效率 ， 并 且 其 对 于 梯度 影响 可 以 忽略 不 计 。 接 下 
来 就 打开 “DLAction/classifiers/chapter2/softmax.py” 文 件 ， 对 train() 函 数 进行 代码 填充 工作 。 








最 小 批量 梯度 下 降 算 法 训练 代码 块 : 


def train( self, X, y, learning rate = le-3, reg = 1е-5, num_iters = 100, 





batch_size = 200, verbose = False ): 
num_train, dim = X.shape 
# 我 们 的 计数 是 从 0 开始 ， 因 此 10 分 类 任务 其 y 的 最 大 值 为 9。 
num_classes = np.max( y ) + 1 
if self.W is None: 
# 初始 化 W。 
self.W = 0.001 * np.random.randn( dim, num classes ) 
# 存储 每 一 轮 的 损失 结果 W。 
loss history = [ ] 


for it in xrange( num_iters ): 


X_batch = None 

y_batch = None 

HHHH HHHH HH HHH HH HHH HHHH HH HHHH HHHH HHHH HHH HH HHHH HH HHH HHH HH HHHH HH 
# 任务 : # 
# 从 训练 数据 X 中 采样 大 小 为 batch_size 的 数据 及 其 类 标 ， # 
# 并 将 采样 数据 及 其 类 标 分 别 存储 在 Х batch, y batch 中 。 # 
# X batch 的 形状 为 ( dim,batch_size ), # 
# y batch 的 形状 为 (batch size), # 
# 提示 : 可 以 使 用 np.random.choice 函数 生成 indices。 # 
# 重复 采样 要 比 非 重 复 采样 快 许多 。 # 


THHBHHHHHHHHHHHBHHBHHBHHHHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHE 


HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHRHHHHRHHHE 
# 结束 编码 # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHBHHHHHBHHHHHHHHRHHHHRHHHE 
# 计算 损失 及 梯度 。 

loss, grad —selfloss( X batch, у batch, reg) 

loss history.append( loss ) 








# 更 新 参数 。 

HH 
# 任务 : # 
# 使 用 梯度 及 学 习 率 更 新 权重 。 # 





58 





第 2 章 机 器 学 习 快速 入 门 


JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHE 


HHRHH HHH HHHH HHHH HHHH HHHH HHH HHHH HHH HHHH HHH HH HHHH HHH HH HHH 
# 结束 编码 # 
HHRHH HHH HH HHH HHHH HHH HH HHHH HH HHH HH HHH HHHH HH HHH HHHH HH HHH 
if verbose and it % 500 = 0: 
print И Yd / Yd: loss %f % ( it, num iters, loss ) 


return loss history 

















MRAR, AS PR SUNY IS BEC TEAC BIS n db. 3e TUA FAVRE, RSS 
实现 是 否 正 确 。 





测试 Softmax 训练 代码 块 : 
from classifiers.chapter2.softmax import * 
softmax = Softmax( ) 
tic = time.time( ) 
loss_hist = softmax.train( X_sample, y_sample, learning_rate = le-7, 
reg = 5e4, num iters = 3500, verbose = True ) 
toc = time.time( ) 
print ' 花 费时 间 %fs' % ( toc — tic ) 








其 结果 如 下 所 示 。 
Softmax 训练 结果 : 
迭代 次 数 013500: loss 780.062853 
迭代 次 数 500 / 3500: loss 7.035170 
和 迭代 次 数 1000 / 3500: loss 1.993476 
和 迭代 次 数 1500 / 3500: loss 1.920132 
和 迭代 次 数 2000 / 3500: loss 1.916136 
和 迭代 次 数 2500 / 3500: loss 1.906755 
和 迭代 次 数 3000 / 3500: loss 1.918884 
花费 时 间 15.643000s 











为 了 更 直观 地 说 明 ， 我 们 将 损失 函数 可 视 化 并 观察 其 变化 情况 ， 代 码 如 下 所 示 ， 损 失 函 
数 如 图 2-8 所 示 。 


Softmax 损失 函数 可 视 化 代码 块 : 
plt.plot( loss hist ) 








plt.xlabel( "Iteration number ) 
plt.ylabel( "Loss value' ) 
plt.show( ) 
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° 500 1000 1500 2000 2500 3000 3500 
Iteration number 





图 2-8 Softmax 损失 函数 变化 情况 


接 下 来 我 们 编写 Softmax 的 预测 代码 块 。 在 预测 阶段 ， 我 们 不 需要 进行 归 一 化 概率 ， 仅 
仅 输出 最 高 分 所 对 应 的 类 标号 即 可 ， 该 过 程 应 该 会 很 简单 。 一 行 代码 就 可 以 完成 。 


Softmax 分 类 器 预测 代码 块 : 
def predict( self, X ) : 

使 用 已 训练 好 的 权重 预测 数据 类 标 。 

Inputs: 

-X: 数 据 形状 (мр), ERN 条 数据 ， 每 条 数据 有 D ЖЕ. 

Returns: 

-y pred: 形状 为 ( N, )， 数 据 X 的 预测 类 标 ，y_pred 是 一 个 长 度 为 N 的 一 维 数组 ， 

每 一 个 元 素 是 预测 的 类 标 整数 。 

y_pred = np.zeros( X.shape[ 0 ] ) 

‘FRE EE H EEE H H HH H HHH HH HHH HR HHH H HHH HH HHHH HHH HHHH HHH HHH HHHH HHH HHHH 

# 任务 : # 

# 执行 预测 类 标 任务 ， 将 结果 存储 在 y_pred。 # 
PEE EEE EEE H 





JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHE 
# 结束 编码 # 
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JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHBEE 
return y pred 


完成 上 述 代码 后 ， 就 可 以 测试 效果 ， 我 们 输出 训练 数据 量 、 验 证 数据 量 、 训 练 正 确 率 和 
验证 正确 率 。 其 代码 块 及 输出 结果 如 下 所 示 。 


测试 训练 集 ， 验 证 集 的 精度 代码 块 : 
y_train_pred = softmax.predict( X_sample ) 














print y_train_pred.shape 
print 训练 数据 量 : %f 训练 正确 率 : %f % ( X sample.shape[ 0 ], 
np.mean( y_sample == y_train_pred ), ) 


y_val_pred = softmax.predict( X_val ) 

print 验证 数据 量 :%f 验证 正确 率 : %f 96 ( X. val.shape[ 0 ], 
np.mean( y val == y val pred ), ) 

(250L.) 

训练 数据 量 :250.000000 ”训练 正确 率 : 0.568000 

验证 数据 量 :100.000000 ”验证 正确 率 : 0.240000 








通过 结果 我 们 发 现 ， 训 练 精度 和 验证 精度 都 不 高 ， 并 且 还 出 现 了 过 拟 合 现象 ， 接 下 来 我 
们 就 开始 使 用 超 参数 进行 调整 ， 训 练 出 一 个 最 佳 模型 。 


2.6.6 ”使 用 验证 数据 选择 超 参数 


深度 学 习 工程 师 ， 开 个 玩笑 ， 也 可 以 被 称 为 “ 调 参 工程 师 ”， 我 们 有 太 多 的 超 参 数 可 以 
选择 。 就 目前 而 言 ， 学 习 率 、 权 重 衰减 惩罚 因子 、 批 量 大 小 和 迭代 次 数 都 可 以 称 为 超 参数 。 
超 参 数 对 最 终 的 训练 结果 影响 显著 ， 并 且 不 同 的 超 参 数组 合 ， 其 结果 也 千差万别 。 接 下 来 我 
们 将 使 用 学 习 率 以 及 权重 衰减 因子 作为 超 参数 进行 选择 ， 请 让 你 的 机 器 飞 起 来 吧 ! 

我 们 将 固定 批量 大 小 以 及 迭代 次 数 ， 其 中 batch_size=50，num_iters=300。 

对 于 学 习 率 和 惩罚 因子 ， 使 用 逐步 缩小 范围 的 方式 ， 来 挑选 超 参数 。 其 学 习 率 为 : 


learning_rates=np.logspace(-9,0,num=10). 








In [2]: learning rates-np.logspace(-9, 9, num=10) 


In [3]: learning_rates 

Out [3]: 

array([ 1.00000000e-09, 1.00000000e-08, 1.00000000e-07, 
1.00000000e-06, ^ 1.00000000e-05, 1.00000000e-04, 
1.00000000e-03, 1.00000000е-02, 1.00000000e-01, 
1.00000000e«00]) 








惩罚 因子 为 : regularization_strengths=np.logspace(0,5,num=10)。 


61 


深度 学 习 实 战 








In [4]: regularization strengths-np.logspace(0, 5, num-10) 


In [5]: regularization strengths 

Out[5]: 

array([ 1.00000000e«00, 3.5938136бе+00, 1.29154967е+01, 
4.64158883e+01, 1.66810054e+02, 5.99484250е+02, 
2.15443469e403, 7.74263683e403, 2.78255940e«04, 
1.00000000е+05]) 





其 完整 的 训练 代码 和 训练 结果 如 下 所 示 。 





使 用 权重 衰减 因子 和 学 习 率 作为 超 参数 训练 Softmax 分 类 器 : 
# 使 用 验证 集 调整 超 参数 〈 权 重 衰减 因子 ， 学 习 率 ) 。 


from classifiers.chapter2.softmax import * 











results = { } 
best_val = -1 
best 1-0 
best г=0 
best softmax = None 
learning rates = np.logspace( -9, 0, num = 10) 
regularization strengths = np.logspace( 0, 5, num = 10 ) 
batch size = [50] 
num iters —[300] 
for b in batch size : 
for n in num iters : 
for | in learning rates : 
for r in regularization strengths : 
softmax = Softmax( ) 
loss hist = softmax.train(X sample, y sample, learning rate = l, reg = r, 
num iters = n, batch size = b, verbose = False) 
y train pred = softmax.predict( X sample ) 
train accuracy- np.mean( y sample == y train pred ) 
y. val pred = softmax.predict( X val ) 
val accuracy = np.mean( y val == y val pred ) 
results[ ( l, r ) ] = ( train accuracy, val accuracy ) 
if ( best val < val accuracy ): 
best val = val accuracy 
best softmax — softmax 
best 1=1 
best г =r 
for lr, reg in sorted( results ) : 
train accuracy, val accuracy = results[ ( Ir, reg ) ] 


print г %e reg 96e 训练 精度 : %f 验证 精度 : %f % (Ir, reg, train accuracy, val accuracy) 
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print ' 最 佳 学 习 率 为 :%e 最 佳 权 重 衰减 系数 为 :%e 其 所 对 应 的 验证 精度 为 : %f % ( best 1, best_r, best val ) 








训练 结果 : 





Ir 1.000000e+00 reg 1.291550e+01 train accuracy: 0.124000 val accuracy: 0.070000 
Ir 1.000000e+00 reg 4.641589e+01 train accuracy: 0.124000 val accuracy: 0.070000 
Ir 1.000000e+00 reg 1.000000e+05 train accuracy: 0.124000 val accuracy: 0.070000 
最 佳 学 习 率 为 :1.000000e-05 最 佳 权重 衰减 系数 为 :3.593814e+00 其 所 对 应 的 验证 精度 为 : 0.280000 








为 了 更 直观 地 展示 训练 结果 ， 我 们 将 训练 精度 以 及 验证 精度 进行 可 视 化 比较 ， 使 用 颜色 
表示 训练 性 能 ， 颜 色 越 红 则 效果 越 好 ， 颜 色 越 蓝 则 效果 越 差 。 以 下 为 可 视 化 结果 的 代码 块 ， 
图 2-9 为 可 视 化 训练 结果 。 





可 视 化 Softmax 分 类 器 训练 结果 代码 块 : 
import math 


x scatter = [ math.log10( x[ 0 ] ) for x in results ] 
y_scatter = [ math.log10( x[ ! ] ) for x in results ] 

# 绘制 训练 数据 精度 。 

marker_size = 100 

colors = [ results[ x J[ 0 ] for x in results ] 

plt.subplot( 2, 1,1) 

plt.scatter( x scatter, y scatter, marker size, c = colors ) 
plt.colorbar( ) 

plt.xlabel( ‘log learning rate' ) 

plt.ylabel( 'log regularization strength' ) 

plt.title( 'CIFAR-10 training accuracy' ) 

# 绘制 验证 数据 精度 。 

colors = [ results[ x ][ 1 ] for x in results ] 

plt.subplot( 2, 1,2 ) 

plt.scatter( x scatter, y scatter, marker size, c = colors ) 
plt.colorbar( ) 

plt.xlabel( "log learning rate' ) 

plt.ylabel( ‘log regularization strength' ) 

plt.title( '"CIFAR-10 validation accuracy' ) 

plt.show( ) 
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图 2-9 可 视 化 训练 结果 一 


从 可 视 化 结果 可 以 清晰 地 看 出 ， 学 习 率 大 约 在 [le-6,1le-4] 之 间 效 果 显 著 ， 惩 罚 因 子 在 
[le0,le4] 之 间 效 果 较 好 ， 并 且 惩罚 因子 越 小 可 能 效果 越 好 。 因 此 我 们 下 一 步 就 在 这 个 范围 内 
继续 缩小 。 代 码 如 下 所 示 ， 图 2-10 是 新 的 训练 结果 。 


learning rates = np.logspace( -6, -4, num = 10 ) 


regularization strengths = np.logspace( -1, 4, num = 5 ) 


最 佳 学 习 率 为 :7.742637e-06 最 佳 权 重 衰减 系数 为 :1.000000e-01 其 所 对 应 的 验证 精度 为 :0.310000 
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图 2-10 ”可视化 训练 结果 二 
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我 们 再 次 设置 选择 范围 ， 如 下 所 示 ， 新 的 训练 结果 如 图 2-11 所 示 。 





learning_rates = np.logspace( -5, -4, num = 10 ) 
regularization strengths = np.logspace( -2, 3, num = 5) 


最 佳 学 习 率 为 :1.668101e-05 最 佳 权重 衰减 系数 为 :3.162278e+00 其 所 对 应 的 验证 精度 为 :0.310000 











CIFAR-10 training accuracy 
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图 2-11 可 视 化 训练 结果 三 
此 时 我 们 的 训练 精度 几乎 都 接近 了 100%, 但 最 佳 的 验证 精度 也 只 有 0.31。 那 最 终 的 测试 
结果 如 何 呢 ? 如 下 所 示 是 我 们 的 Softmax 测试 结果 代码 块 ， 非 常 令 人 泪 丧 ， 测 试 集 精度 只 有 
0.215。 





softmax 测试 结果 代码 块 : 
# 在 测试 数据 集 上 评估 最 佳 Softmax 分 类 器 。 
y_test_pred = best_softmax.predict( X_test ) 





test accuracy = np.mean( y test — y test pred ) 
print ' 测 试 集 精度 : %f % test accuracy 
测试 集 精度 : 0.215000 | 








实在 不 好 意思 ， 这 是 恶 趣味 的 作者 故意 要 的 一 个 小 花招 ， 那 你 知道 问题 出 在 哪 吗 ? ШЖ 
你 足够 认真 和 细心 的 话 ， 可 能 早 就 发 现 了 ， 那 就 是 我 们 训练 的 数据 量 实在 太 小 了 。 上 述 的 测 
试 中 ， 我 们 仅仅 使 用 了 250 条 数据 进行 训练 ， 不 管 我 们 如 何 优化 ， 过 拟 合 情 况 都 很 难 避 免 ， 
之 所 以 这 么 做 ， 是 想 让 你 注意 一 个 微小 而 又 重要 的 知识 ， 那 就 是 数据 量 的 问题 。 

当 数据 较 少 时 ， 过 拟 合 风险 就 越 高 ， 即 使 非常 小 心地 选择 超 参 数 ， 其 效果 也 不 会 好 ， 这 
是 一 个 令 人 伤感 的 消息 。 但 其 实 也 有 一 个 好 消息 ， 那 就 是 当 数据 量 足 够 大 时 ， 过 拟 合 现象 就 
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很 难 发 生 ， 这 就 使 得 训练 数据 、 验 证 数据 与 测试 数据 之 间 的 差 值 会 越 来 越 接近 。 在 某 些 数据 
量 特别 巨大 的 情况 下 ， 可 能 只 需 关注 如 何 将 训练 数据 错误 率 降 到 足够 低 即 可 。 超 参数 的 选择 
是 一 个 非常 耗 时 、 耗 力 的 过 程 ， 因 此 我 们 可 以 先 使 用 较 小 的 数据 去 粗略 地 选择 超 参数 的 取 值 
范围 ， 这 样 可 以 节约 训练 时 间 。 但 在 较 小 数据 中 表现 最 好 的 超 参数 ， 不 一 定 在 数据 量 较 大 时 
同样 表现 得 更 好 ， 因 此 需要 注意 数据 量 的 把 控 ， 但 这 是 一 个 非常 依赖 于 经 验 的 问题 ， 需 要 从 
大 量 的 实验 中 自己 积累 经 验 ， 进 行 不 断 地 尝试 。 记 住 ,， 千 万 不 要 怕 错 。 

现在 我 们 将 重新 载 入 数据 集 , 使 用 完整 的 49000 条 数据 进行 训练 ,1000 条 数据 作为 验证 。 
岗 在 舞台 交 给 你 了 ， 请 尽 一 切 可 能 训练 出 一 个 最 好 的 测试 结果 ， 你 可 以 尽 可 能 地 调整 现在 所 
提供 的 4 种 超 参 数 ， 如 果 计 算 能 力 和 自己 的 耐心 允许 ， 也 可 以 尝试 下 交叉 验证 。 如 果 你 足够 
努力 ， 你 的 测试 正确 率 可 以 超过 0.35。 重 新 载 入 数据 代码 块 和 训练 代码 块 分 别 如 下 所 示 。 


重新 载 入 数据 代码 块 : 

X train, y train, X val, y val, X test, y_test = get CIFARIO data( num training = 49000, num validation = 
1000, num test = 10000 ) 

Train data shape: (49000L, 30731) 

Train labels shape: | (49000L.) 

Validation data shape: (1000L, 30731) 

Validation labels shape: (1000L,) 

Test data shape: (10000L, 3073L) 

Test labels shape: (10000L,) 














Softmax 训练 代码 块 : 





from classifiers.chapter2.softmax import Softmax 


results = { } 

best val = -1 

best_softmax = None 
IHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHLEHEEE HEB EUH EUH HHH HH HIE HIE 
# 任务 : # 
# 使 用 全 部 训练 数据 训练 一 个 最 佳 softmax。 # 
‘EEE HE HEHEHE HEHE HHHH HHH HH HHH HH HHHH HH HHH HH HHH HHH HH HHHH HR HHHH HHH HRH HH HHHH 
learning rates = [ ] 

regularization_strengths = [ ] 

learning_rates = [ ] 


regularization_strengths = [ ] 


THHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 结束 编码 # 
THHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
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for Ir, reg in sorted( results ): 


train_accuracy, val_accuracy = results[ ( Ir, reg ) ] 
print 'Ir %e reg %e train accuracy: %f val accuracy: %f % ( 
Ir, reg, train_accuracy, val_accuracy ) 


print ' 最 佳 验证 精度 为 : %f ' % best. val 


另 一 种 更 直观 检验 模型 好 坏 的 方法 是 可 视 化 模型 参数 ， 比 如 我 们 识别 图 片 “ 马 ”， 那 模 
型 的 参数 其 实 就 是 图 片 的 “ 马 模板 ”， 也 可 以 通过 可 视 化 参数 去 反 推 数据 情况 。 比 如 我 们 的 
图 片 中 如 果 存 在 大 量 “ 马 头 向 左 ”与 “ 马 头 向 右 ” 的 图 片 ， 那 训练 出 来 的 模型 参数 很 可 能 就 
变 成 了 “ 双 头 马 ”。 同 理 ， 如 果 图 片 中 汽车 的 颜色 大 多 数 都 是 红色 ， 那 训练 出 的 模型 就 可 能 
是 一 辆 “ 红 车 模板 ”。 可 视 化 参数 代码 块 如 下 所 示 ， 可 视 化 训练 参数 示意 图 如 图 2-12 所 示 。 


可 视 化 参数 代码 块 : 

# 可 视 化 学 习 到 的 参数 : 

w= best_softmax.W[ : -1, : ] # 移 除 偏 置 项 。 
w = w.reshape( 32, 32, 3, 10) 


w min,w max = np.min( w ), np.max( w ) 





classes = [ 'plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog’, ‘horse’, 'ship', 'truck' ] 
for i in xrange( 10 ): 

plt.subplot( 2, 5, i + 1) 

# 将 权重 缩放 回 0-255. 

wimg = 255.0 * (w[:,:,:,I].squeeze( ) - w_min ) / (м тах - № тіп) 

plt.imshow( wimg.astype( 'uint8' ) ) 

plt.axis( 'off ) 

plt.title( classes[ i ] ) 











plane car bird cat deer 


dog frog horse ship 


2-12 可视化 训练 参数 
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27 参考 代码 





softmax_loss_naive 代码 块 : 





def softmax_loss_naive( W, X, y, reg ) : 
loss = 0.0 
dW = np.zeros_like( W ) 
HEHEHE HE HHHH: E H E HHH H HHH HH H HHEH HH HH H HH H HHH HHH HH HHHH HH HHH 
# 任务 : 使 用 显 式 循环 实现 Softmax 损失 值 loss 及 相应 的 梯度 dW. # 
# 提示 : WR, HRA DiMA ER. ЖБ TEM HL. # 
AE H HEHHEHE HEHE H HEH HHEH HHE HH H HE H H H HH H HH H HH H HHH HH HHH HH HHHH HH H HH HHH H HHHH H 














num_train = X.shape[ 0 ] 
num class = W.shape[ 1 ] 
for i in xrange( num train ) : 
s-X[i J.dot( W ) 
scores = s - max( s ) 
scores E = np.exp( scores ) 
Z = np.sum( scores E ) 
scores target = scores E[ y[i]] 
loss + = -np.log( scores target / Z ) 
for j in xrange( num class ) : 
ifj —y[i]: 
dW[:,j]+=-(1-scores E[j]/Z) * X[i] 
else : 
dW[:,j]+=X[i] * scores E[j]/Z 
loss = loss / num train + 0.5 * reg * np.sum( W * W ) 
dW = dW / num train + reg * W 
JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHBHHHHHH RE 
# 结束 编码 # 
JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHRHHH E 


return loss, dW 








softmax loss vectorized 代码 块 : 

defsoftmax loss vectorized( W. X, y, reg ) : 
loss = 0.0 
dW - np.zeros like( W ) 
GHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHBHHHHHBHHBHHBHHRHHH E 
# 任务 : 不 使 用 显 式 循环 计算 Softmax 的 损失 值 loss 及 其 梯度 dW. # 
# 提示 : MRM, RRA Sie Ей. As TEL. # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHHBHHBHHHHSHHBHHSHHHHHRHHHEE 
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num train = X.shape[ 0 ] 


5 = np.dot( X, W ) 


scores = s - np.max( s, axis =1, keepdims = True ) 


scores E = np.exp( scores ) 


Z = np.sum( scores E, axis = 1, keepdims = True ) 


prob = ѕсогеѕ E/Z 


y trueClass = np.zeros like( prob ) 


y_trueClass[ range( num train ), y ] = 1.0 # (ONC) 


loss + = -np.sum( у trueClass * np.log(prob)) / num train + 0.5 * reg * np.sum(W*W) 
dW + = -np.dot( X.T, y trueClass — prob ) / num train + reg * W 
THHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHNE 


# 


结束 编码 # 


THHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHHBHHHHHHHBHHHHHBHHHHHHHHHHHE 


return loss, dW 


最 小 批量 梯度 下 降 算法 训练 代码 块 : 


def train( self, X, y, learning rate = le-3, reg = le-5, num iters = 100, 


batch_size = 200, verbose = False ) : 


num_train, dim = X.shape 


num classes = np.max( y ) + 1 
if self.W is None: 


self.W = 0.001 * np.random.randn( dim, num classes ) 


loss history = [ ] 


for it in xrange( num iters ) : 
X batch = None 
y batch = None 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHEE 


# 
# 
# 
# 
# 
# 
# 


任务 : # 

从 训练 数据 X 中 采样 大 小 为 batch_size 的 数据 及 其 类 标 # 
并 将 采样 数据 及 其 类 标 分 别 存储 在 X batch, у batch i # 
X batch 的 形状 为 ( dim,batch size ), # 

y batch 的 形状 为 ( batch. size )。 # 
提示 : 可 以 使 用 np.random.choice 函数 生成 indices， # 
重复 采样 要 比 非 重复 采样 快 许多 。 # 


THHHHBHHBHHBHHBHHBHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


indices — np.random.choice( num train, batch size, False ) 


X batch = X[ indices, : ] 


y. batch = y [indices ] 
HHHHHHHBHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHBHHHHHHE 
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# 结束 编码 # 
JHHHHBHHBHHBHHBHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
loss, grad = self.loss( X batch, y batch, reg ) 
loss history.append( loss ) 
AHEHE HEHH HEH HEHEH EE H HEHHEHE H HHEH HH H HHH HHEH HHH HH H HHHH H HHHH 
# 任务 : # 
# 使 用 梯度 及 学 习 率 更 新 权重 # 
THEHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHBHHHHHHHHBHRHHHHEE 
self.W = self. W - leaning rate * grad 
ЗННННННЯННННННННННИННННННИНННИНННННННННННННННННННННННННННЕ 
# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHBHHHHHBHHBHRHHHHEE 
if verbose and it % 500 — 0: 

print FERAL 96d / %d: loss %f' % ( it, num ters, loss ) 


return loss history 








Softmax 分 类 器 预测 代码 块 : 
def predict( self, X ) : 
y_pred = np.zeros( X.shape[ 0 ] ) 
TEHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE RE 
# ftr: # 
# 执行 预测 类 标 任务 ， 将 结果 存储 在 y_pred。 # 
HHHH H HHHH HHHH HH HHH HHHH HH HHH HH HHH HHH H HH HHH HHHH HHH HH HH HHH HHHH HH 





y. pred = np.argmax( X.dot( self.W ), axis = 1 ) 

THHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHBHHHHHHHHHHHBHHHHHHHHHHHHHHHNE 
# 结束 编码 # 
HHHHHHEEEUB EH A HH HHHH HHH HHHH HHH HHHH HH 





return y_pred 
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故事 从 一 个 十 分 发 达 的 地 外 文明 开始 ，“ 球 球星 ” 住 着 科技 高 度 发 达 的 “ 球 球 人 ”。 他 
们 热爱 和 平 ， 但 也 以 怕 战 争 ， 于 是 就 监听 其 他 星系 的 文明 ， 而 地 球 就 属于 士兵 小 飞 的 监控 范 
围 。 一 天 少校 问 士兵 小 飞 ， 地 球 怎么 样 了 。 小 飞 就 说 ，“ 地 球 文明 还 很 原始 ， 地 球 上 最 高 级 
的 物种 ， 是 一 种 名 叫 汽 车 的 生物 ， 汽 车 的 速度 很 快 ， 但 其 不 靠 阳光 ， 也 不 会 主动 疯 食 ， 汽 车 
专门 奴役 一 种 称 为 人 的 生物 ， 当 该 生物 进入 汽车 时 ， 汽 车 就 会 获得 燃料 ， 然 后 就 可 以 四 处 活 
动 。 当 燃料 用 尽 时 ， 汽 车 就 会 吐出 这 种 生物 ， 让 其 四 处 补充 能 量 ， 以 便 下 一 次 循环 利用 。 该 
生物 还 比较 低级 ， 经 常 还 会 因为 自身 速度 过 快 ， 或 因 误 食 变 质 人 类 而 失控 ， 导 致 互相 残杀 ， 
不 知 少校 如 何 处 置 ? ”少校 思考 稍 许 之 后 说 道 ，“ 他 们 内 耗 严 重 ， 过 于 愚蠢 ， 暂 不 处 理 ， 继 
续 暗 中 观察 。” 你 可 能 会 嘲笑 士兵 小 飞 的 无 知 ， 明 明 是 人 在 使 用 汽车 ， 结 果 却 观察 到 汽车 奴 
役 人 类 。 但 如 果 把 “汽车 和 人 ” 换 成 “人 和 基因 ”， 那 会 不 会 让 你 后 背 发 凉 呢 ? 

某 种 程度 上 ， 我 们 观察 到 的 世界 或 许 和 “ 球 球星 ”人 观察 到 的 地 球 差不多 ， 我 们 即使 找 
到 了 非常 “合理 ”的 解释 ， 但 其 也 不 过 是 我 们 的 幻象 喷 了 。 虽 然 很 难 想象 一 堆 粉 红色 的 肉 团 
如 何 能 造 出 缤纷 的 世界 ， 但 以 现代 科学 的 观点 ， 人 的 智能 行为 ， 或 者 人 们 所 说 的 “灵魂 ”， 
可 能 仅仅 是 由 一 些 脑 神经 组 合 起 来 的 行为 而 已 。 也 许 就 如 人 工 智能 之 父 ， 马 文 。 明 斯 基 的 那 
句 名言 一 样 ，“ 大 脑 无 非 是 肉 做 的 机 器 而 已 (The brain happens to be a meat machine) ”。 

要 解 开 大 脑 的 秘密 ， 可 能 还 需要 很 多 代 人 的 不 懈 努 力 。 如 果 说 神经 科学 是 以 生物 的 方式 
去 破解 智能 密码 ， 那 么 深度 学 习 就 是 以 计算 机 的 方式 去 寻找 智能 钥匙 ， 并 且 深 度 学 习 与 神经 
科学 也 是 相辅相成 ， 很 多 研究 者 经 常 在 这 两 种 学 科 间 互 换 。 但 神经 网 络 的 研究 已 经 不 仅仅 是 
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“大 脑 模型 ”而 已 ， 同 时 也 遵循 许多 数学 与 工程 原则 ， 神 经 网 络 也 被 看 成 是 一 些 并 行 的 处 理 
单元 ， 因 此 “神经 元 (neuron) ”有 时 也 用 “单元 (ипи) ”替换 ， 但 这 仅仅 是 文字 游戏 ， 希 
AREF 

在 本 章 的 3.1 节 中 ， 我 们 将 介绍 神经 元 ， 其 是 神经 网 络 的 基本 组 成 单元 ， 就 像 人 与 人 聚 
在 一 起 组 成 了 社会 一 样 ， 研 究 社会 的 起 点 及 终点 都 应 该 是 人 ， 而 研究 神经 网 络 的 起 点 也 是 从 
简单 的 神经 元 开始 ， 但 深度 学 习 中 的 神经 元 并 不 是 一 个 生物 概念 ， 和 生物 神经 元 的 差别 也 非 
HK. 

在 本 章 的 3.2 节 中 ， 我 们 将 介绍 前 馈 神 经 网 络 ， 该 网 络 是 通用 的 深度 学 习 模型 ， 并 且 后 
续 章节 的 卷 积 神经 网 络 ， 循 环 神经 网 络 都 是 该 网 络 的 变种 ， 因 此 该 网 络 是 更 高 级 神经 网 络 的 
基础 ， 你 需要 认真 学 习 。 

本 章 的 3.3 节 中 ， 我 们 会 详细 地 介绍 反 向 传播 算法 (ВР 算法 ) ， 该 算法 自 20 世纪 80 年 
代 起 就 一 直 统 治 着 深度 学 习 ， 其 算法 思想 其 实 非常 简单 ， 但 对 于 初学 者 而 言 可 能 有 些 摸 不 着 
头脑 ， 因 此 在 本 小 节 中 会 详解 该 算法 的 每 一 步 ， 让 你 充分 理解 该 算法 。 

而 在 3.4 节 的 编程 实践 环节 中 ， 我 们 将 逐步 地 从 简单 的 仿 射 传播 ， 到 单 层 传播 ， 再 到 浅 
层 网 络 ， 最 后 到 全 连接 神经 网 络 ， 一 步 一 步 构造 出 完整 的 深层 神经 网 络 。 你 需要 耐心 且 独 立 
地 完成 每 一 小 节 的 任务 ， 同 样 在 本 章 最 后 ， 我 们 也 会 给 出 参考 代码 来 帮助 你 学 习 。 


3.1 神经 元 


神经 细胞 利用 “ 电 -化 学 ”过 程 进行 信号 交换 ， 但 信号 在 大 脑 中 实际 怎样 传输 是 一 个 相当 
复杂 的 过 程 。 深 度 学 习 并 不 模拟 完整 的 神经 元 ， 为 了 方便 计算 机 使 用 ， 我 们 简化 其 模型 ， 通 
常 只 借用 神经 科学 中 的 一 些 概念 去 帮助 我 们 理解 。 

我 们 将 大 脑 的 神经 细胞 简化 为 两 种 状态 : 兴奋 Сге) 和 不 兴奋 〈 即 抑制 ) ， 发 射 信号 的 
强度 不 变 ， 变 化 的 仅仅 是 频率 。 神 经 细胞 利用 我 们 还 不 知道 的 方法 ， 把 所 有 输入 进 神经 元 的 
信号 进行 累加 ， 如 果 全 部 信号 的 总 和 超过 某 个 阐 值 ， 就 会 刺激 神经 细胞 进入 兴奋 状态 ， 这 时 
就 会 有 电信 号 发 送 给 其 他 神经 细胞 。 如 果 信 号 总 和 没有 达到 某 个 阔 值 ， 神 经 细胞 就 会 处 于 抑 
制 状态 ， 不 向 周围 发 送信 号 。 昌 然 这 样 的 解释 有 点 过 于 简单 ， 但 已 能 满足 我 们 的 目的 了 。 

如 图 3-1 所 示 ， 为 神经 元 模型 。 该 模型 主要 由 两 部 分 构成 ， 第 一 部 分 进行 信号 累加 ， 就 
如 我 们 第 2 章 介 绍 过 的 得 分 函数 (score function) ， 该 部 分 仅 对 输入 信号 〈 输 入 数据 ) 进行 累 
加 求 和 , 如 式 (3.1) 所 示 , 每 一 权重 省 对 应 着 相应 的 数据 维度 蕊 ,而 w 作为 我 们 的 偏 置 项 (bias) 
就 相当 于 函数 的 截 距 项 或 常数 项 。 为 了 简化 描述 ， 我 们 通常 增加 第 0 维 输入 ， 该 输入 为 常数 
1， 将 偏 置 项 作为 第 0 维 的 权重 处 理 ， 在 几何 学 中 ， 我 们 也 将 这 种 计算 称 为 仿 射 变 换 〈Affine 


Transformation) 。 





Z=bias+》 xw, = xw, (3.2 
i=l 10 
第 二 部 分 为 激活 函数 (Activation Function) ， 这 是 神经 元 的 关键 ， 通 常 使 用 某 类 激活 函 


数 ， 就 被 称 为 某 类 神经 元 。 如 果 我 们 的 激活 函数 使 用 Sigmoid 激活 函数 ， 那 该 神经 元 就 相当 
于 Logistic fag"), 
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图 3-1 神经 元 模型 


如 图 3-2 所 示 ， 最 开始 的 激活 函数 使 用 的 是 阐 值 (Threshold) 中 激活 函数 ， 就 如 我 们 对 神 
经 元 的 最 简化 描述 一 样 ， 如 果 阔 值 超过 了 0， 那 函数 就 恒定 输出 1， 如 果 小 于 0， 函数 就 恒定 
输出 0。 该 函数 虽然 不 能 求 导 ， 但 使 用 感知 机 收敛 理论 Bl 〈 可 以 说 是 随机 梯度 下 降 的 鼻祖 ) 
依然 可 以 学 习 线性 可 分 的 数据 。 但 该 神经 元 无 法 在 多 层 感 知 机 中 学 习 基 于 梯度 的 优化 算法 ， 
因此 很 少 应 用 在 现代 神经 网 络 中 。 





e(v) 
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3.1.1 Sigmoid 神经 元 


VA ERRERA CA UL Bd Д о Г, {НИ (h isk CGIAR) 也 使 得 
它 无 法 应 用 到 神经 网 络 中 。 为 了 克服 这 一 障碍 ， 就 引进 了 一 种 “ 软 阔 值 ”函数 ， 也 就 是 如 图 
3-3 所 示 的 Sigmoid 函数 内 。 式 (3.2) 为 该 函数 的 表达 式 ， 如 式 (3.3) 所 示 ，Sigmoid 函数 还 
有 着 非常 简洁 的 导数 表达 式 。 


И (32) 


Sigmoid 函数 的 导 函 数 。 
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Го) = Ло) ЛО) G3) 
在 很 长 一 段 时间 内 ，Sigmoid 神经 元 都 是 神经 网 络 的 默认 配置 , 其 不 但 能 很 好 地 模拟 生物 
神经 元 的 特点 ， 并 且 还 有 着 很 和 谐 的 函数 性 质 ， 但 它 也 有 着 一 个 过 去 人 们 比较 忽视 的 缺点 ， 


那 就 是 易 饱 和 性 〈saturation) ， 当 输入 值 非常 大 或 者 非常 小 的 时 候 ， 这 些 神经 元 的 梯度 就 接 
近 于 0。 从 图 3-3 中 函数 的 变化 趋势 可 以 看 出 ， 当 输入 值 远离 0 时 ， 其 函数 会 很 快 变 得 平稳 ， 
而 这 种 平稳 的 代价 就 是 梯度 接近 于 0。 也 就 是 说 ， 当 我 们 试图 修改 权重 时 ， 几 乎 得 不 到 梯度 
进行 学 习 。 就 如 同一 杯 几乎 饱和 了 的 盐水 ， 想 要 让 其 变 淡 ， 但 每 次 只 能 加 入 几 滴 水 。 因 此 ， 
使 用 Sigmoid 神经 元 时 ， 尤 其 需要 注意 参数 的 初始 值 来 尽量 避免 饱和 情况 。 如 果 初 始 值 很 大 
的 话 ， 大 部 分 神经 元 可 能 都 会 处 在 饱和 状态 ， 这 会 导致 网 络 变 得 很 难 学 习 ， 此 时 的 学 习 就 像 
“清水 滴 石 ”“ 铁 析 磨 针 ”， 对 于 初学 者 而 言 或 许 没有 太 多 感触 ， 但 当 你 进行 实验 时 ， 就 会 
发 现 这 有 多 糟糕 。 


Sigmoid 函 数 











图 3-3 Sigmoid 神经 元 函数 曲线 


Sigmoid 神经 元 还 有 一 个 小 缺点 ， 那 就 是 其 输出 的 期 望 不 是 0， 这 是 不 可 取 的 ， 因 为 这 会 
导致 后 一 层 的 神经 元 将 得 到 上 一 层 输出 的 非 0 均值 信号 作为 输入 ， 这 一 知识 点 将 会 在 第 5 章 
批量 归 一 化 (Batch Normalization) 回 章 节 中 重点 描述 。 


3.1.2 Tanh 神经 元 


如 图 3-4 所 示 ， 为 双 曲 线 正 切 (Hyperbolic Tangent) [9 激活 函数 的 函数 图 像 。 该 函数 的 取 
值 为 (-1,1)， 由 于 其 函数 期 望 为 0， 因 此 可 算 作 是 Sigmoid 神经 元 的 一 个 小 改进 ， 通 常 在 需要 
使 用 Sigmoid 神经 元 的 情况 下 ， 双 曲线 正切 神经 元 是 一 个 比较 好 的 替代 。 但 该 神经 元 依然 存 
在 易 饱 和 的 性 质 ， 如 式 〈3.4) 所 示 ， 为 该 激活 函数 的 表达 式 。 

e'-e* 
e're* 


虽然 该 函数 看 着 比较 复杂 ， 但 如 式 (3.5) 所 示 ， 该 函数 化 简 之 后 其 实 就 是 Sigmoid 函数 


tanh(x) = (3.4) 
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的 一 个 变形 。 


tanh(x) =2sigmoid(2x) -1=20+e7")" -1 (3.5) 
如 式 (3.6) 所 示 ， 是 该 函数 的 导数 ， 其 导数 为 1 减 去 该 函数 自身 的 平方 。 
tanh'(x) =1—tanh?(x) (3.6) 
| апай, as 
2 / 











图 3-4 Tanh 神经 元 函数 
3.1.3 ReLU 神经 元 


从 2006 年 至 今 可 以 被 称 为 神经 网 络 的 第 三 次 高 潮 , 大 量 的 研究 人 员 在 此 期 间 提 出 了 重要 
的 方法 ， 但 若非 要 列举 几 个 最 重要 的 突破 ， 修 正 线性 单元 (Rectified Linear Units, ReLU) "! 
的 使 用 必然 位 列 其 中 。 在 2006 年 之 前 ,深度 学 习 就 像 是 机 器 学 习 领 域 的 异类 ， 过 高 的 模型 复 
杂 度 ， 使 其 难以 进行 数学 分 析 ， 大 量 的 训练 “技巧 ”让 外 人 难以 进入 该 领域 ， 非 常 容易 过 拟 
合 又 让 人 看 不 到 希望 。 

当时 深度 学 习 最 严重 的 问题 就 是 梯度 消失 问题 , 模型 的 层 数 较 多 时 ， 甚 至 只 有 三 四 层 时 ， 
模型 几乎 就 无 法 训练 了 。 而 以 Hinton 为 首 的 深度 学 习 研 究 者 终于 使 用 逐 层 贪 禁 非 监督 预 训练 
学 习 的 方法 缓解 了 梯度 消失 这 一 问题 。 由 于 每 一 层 都 有 较 好 的 初始 化 ， 即 使 神经 网 络 的 底层 
依然 无 法 得 到 有 效 的 训练 ， 但 也 能 有 一 个 非常 好 的 训练 结果 。 于 是 研究 深度 学 习 的 “异类 ” 
们 才 渐 渐 地 得 到 了 鲜花 和 掌声 ， 但 逐 层 贪 禁 预 训练 方法 并 没有 解决 梯度 消失 问题 ， 梯 度 消失 
始终 就 像 是 悬挂 在 深度 学 习 头 顶 的 “ 达 摩 克 里 斯 之 剑 ”。 

故事 并 不 像 小 说 那样 ， 主 角 都 需要 骨骼 惊奇 ， 万 中 无 一 ， 但 故事 又 如 人 们 期 望 的 那样 ， 
救世 主 总 是 命中 注定 的 。 这 就 是 本 节 将 重点 推介 的 平凡 主角 修正 线性 单元 (Rectified 
Linear Units, ReLU) 。 我 喜欢 戏称 ReLU 为 “平凡 的 天 选 之 人 ”， 所 谓 平凡 ， 指 的 是 该 神经 
元 的 简单 ; 所 谓 的 “天 选 之 人 ”， 指 的 是 该 神经 元 是 更 加 接近 生物 神经 元 的 模型 。 

深度 学 习 早 已 脱离 了 “模拟 大 脑 ” 的 僵化 描述 ， 但 深度 学 习 的 每 一 次 重大 突破 ， 又 和 我 
们 对 自身 大 脑 的 认 知 脱 不 了 关系 。 我们 对 于 大 脑 、 神 经 元 的 过 简 描 述 并 不 能 有 效 地 帮助 我 们 。 
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同样 地 ， 我 们 对 于 神经 元 的 过 于 复杂 或 过 充分 模拟 也 无 法 有 效 地 帮助 我 们 ， 如 何 折 中 并 找到 

平衡 ， 我 们 或 许 只 能 是 “ 摸 着 石头 过 河 ”。 就 ReLU 而 言 ， 比 其 简单 的 模型 有 过 ， 比 其 复杂 

的 模型 也 多 不 胜 举 ， 随 着 时 间 的 推移 ， 研 究 人 员 “ 众 里 寻 他 千百度 ”， 提 出 了 各 种 复杂 “高 

深 ” 的 观点 及 算法 ， 但 募 然 回首 ， 找 到 了 如 此 简单 又 如 此 合理 的 ReLU， 如 图 3-5 所 示 。 
ReLU 激 活 函 数 





g(z) = max{0, z} 


0 
3-5 修正 线性 单元 函数 图 像 


看 完 图 3-5 所 示 的 修正 线性 单元 函数 图 像 ， 不 知 你 是 什么 感觉 ，“ 这 不 就 是 被 益 割 的 线 
性 函数 吗 ? 有 什么 了 不 起 的 。” 如 果 你 有 这 样 的 想法 那 也 很 正常 ， 如 式 〈3.7) 所 示 ， 该 函数 
正 半 部 分 仅 是 一 次 函数 的 正 半 部 分 ， 负 半 部 分 是 x 轴 的 负 半 部 分 。 


f(x)= b iis (3.7) 


0, x «0 


我 们 知道 线性 单元 组 合 后 的 模型 能 力 依然 是 线性 能 力 , 那 首先 需要 质疑 的 就 是 , 这 被 “ 砍 
了 半截 ”的 线性 单元 又 有 多 强 的 能 力 呢 ? 为 了 回答 这 个 问题 ， 我 们 使 用 致使 神经 网 络 第 一 次 
大 衰败 的 “ 异 或 ”问题 作为 案例 。 
如 图 3-6 所 示 ， 有 { (1,1), (1,0), (0,1), (0,0) }4 个 数 | 
据 ， 数 据 (1,1) 和 数据 (0,0) 属 于 同一 类 ， 我 们 用 “0” 表 原始 x 空间 
示 ; 而 数据 (1,0) 和 数据 (0,1) 属 于 同一 类 ， 我 们 用 “1” 1 
表示 。 就 相当 于 我 们 的 数据 有 两 维 ， 若 两 维 值 相 同 就 输 
出 “0”， 相 反 就 输出 “1”。 我 们 使 用 任意 的 直线 都 无 
法 完全 分 割 该 数据 空间 ， 而 我 们 想 要 验证 的 就 是 ReLU Š 
这 种 “半截 直线 ”的 组 合 是 否 可 以 解决 著名 的 “ 异 或 ” 
问题 ， 从 而 证 明 Керо 是 否 是 一 种 非 线 性 转换 函数 ， 也 0 
就 证 明了 ReLU 虽然 外 表 “ 简 单 ”， 但 同样 拥有 强大 的 


非 线性 转换 能 力 ， 换 句 话说， 就 是 这 家 伙 “ 城 府 深 ”。 9 1 
图 3-7 为 我 们 设计 用 于 解决 异 或 问题 的 网 络 模型 ， d 
该 模型 为 一 个 标准 的 前 馈 神经 网 络 , 网 络 中 每 一 个 神经 图 3-6 异 或 数据 空间 展示 图 


元 都 使 用 ReLU 激活 函数 。 式 (3.8) 为 该 网 络 的 函数 表 
达 。 其 中 矩阵 画 为 第 一 层 网 络 的 连接 权重 ,向量 c 为 第 一 层 的 偏 置 项 (也 就 是 函数 的 常数 项 
或 截 距 ) ， 向 量 w 为 第 二 层 的 连接 权重 ， 向 量 5 为 第 二 层 的 偏 置 项 。 如 式 (3.9) 所 示 ， 列 出 
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了 其 中 各 连接 的 权 值 。 


f(a:W.c,w,b) = w max{0, W a е) - b (.8) 


v-[iibe[5) 13] o» 
© 


Bee 


3-7 解决 异 或 问题 的 网 络 模型 


WR (3.10) Bias, X HET EO SES, X 中 的 每 一 行 代表 一 条 数据 ， 每 一 列 代 表 数 据 
的 维度 。 








кеу д (3.10) 
1 1 
首先 将 数据 的 输入 与 对 应 的 权重 相 乘 再 相 加 ， 也 就 是 式 (3.11) ， 使 用 矩阵 乘法 。 
m 
M '| (3.11) 


接 下 来 我 们 加 上 向 量 es 就 得 到 如 下 左 侧 所 示 的 结果 , 但 我 们 的 激活 函数 会 将 负数 全 部 截 
断 为 0， 因此 就 得 到 如 下 右 侧 所 示 的 最 终结 果 。 


0 一 1 0 0 
1 0 1 0 
1 0 1.0 
2 1 SNNT 


我 们 将 该 结果 用 图 3-8 表示 ， 就 会 发 现 一 些 有 趣 的 现象 ，“ 异 号 ”的 数据 被 正确 地 映射 
到 了 同一 点 。 那 现在 我 们 就 可 以 轻松 地 找到 一 条 直线 ， 然 后 完美 地 分 割 这 些 数 据 。 最 后 再 使 
用 向 量 w 去 乘 特征 转换 后 的 数据 ， 就 得 到 了 如 下 所 示 的 最 终结 果 ， 该 结果 是 使 用 线性 函数 无 
法 分 割 的 异 或 数据 问题 。 
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он н о 


学 习 到 的 h 空 间 


ha 


0 1 2 
hi 


图 3-8 使 用 ReLU 激活 函数 学 习 到 的 特征 数据 


目前 为 止 ， 我们 训练 神经 网 络 只 有 一 招 ， 那 就 是 构造 代价 函数 ， 然 后 求解 梯度 ， 修 改 网 
络 权 重 。 但 使 用 ReLU 函数 时 会 有 麻烦 ， 因 为 ReLU 在 0 点 处 不 可 导 ， 该 函数 在 零点 的 左 导 
数 为 0， 而 右 导 数 为 1， 当 我 们 编程 实现 深度 学 习 时 ， 返 回 该 激活 函数 其 中 一 边 的 导数 〈 如 右 
导数 ) 即 可 。 不 知 对 于 比较 “严谨 ”的 读者 来 说 ， 这 算 不 算 灾难 ， 但 请 放松 些 ， 我 们 学 的 并 
不 是 数学 。 在 实际 应 用 中 ， 虽 然 这 些 部 分 不 可 导 ， 但 其 执行 的 性 能 依然 足够 好 。 

其 中 的 部 分 原因 在 于 ， 深 度 学 习 算法 通常 不 是 寻找 代价 函数 最 低 点 训练 数据 的 最 优 值 
不 一 定 是 测试 数据 的 最 优 值 》， 而 是 显著 地 降低 代价 函数 。 由 于 我 们 并 不 期 望 能 到 达 梯 度 为 
0 的 点 (山谷 最 低 点 ) ,那么 使 用 不 严谨 的 梯度 ,如 随机 梯度 下 降 法 ,也 是 可 以 接受 的 。 ReLU 
函数 还 有 一 个 致命 的 缺点 ， 那 就 是 当 神 经 元 没有 激活 时 ， 将 永远 无 法 修改 其 权重 ， 就 相当 于 
神经 元 死亡 了 。 

ReLU 可 以 看 作 是 两 条 分 段 线 性 函数 ， 只 是 其 中 一 条 分 段 函 数 输出 恒 为 零 。 如 式 (3.12) 
所 示 ， 为 通用 的 修正 线性 单元 的 函数 表达 式 。 


f(x,0)= max(0,x)+a@ min(0, x) (3.12) 


当 a=0 时 ， 就 是 我 们 前 面 介绍 的 ReLU。 若 固定 а= -1， 该 函数 可 表示 为 Ax)=k|， 其 就 被 
称 为 绝对 值 修 正 单元 Absolute Value Rectification) 四。 而 将 a 固定 为 较 小 的 值 ， 如 0.01 时 ， 
就 称 之 为 裂缝 修正 单元 (Leaky ReLU) Pl, "4 a 的 值 较 小 时 ， 该 函数 的 负 半 轴 函 数 和 横 坐 标 
的 夹 角 就 非常 的 小 ， 因 此 使 用 “leaky” 一 词 来 形容 ， 当 然 也 可 以 使 用 PReLUL9 将 a 作为 一 个 
可 变 参 数 来 调整 学 习 。 

如 果 喜 欢 追 求 函数 的 表达 能 力 ， 可 以 使 用 Maxout 单 元 (Maxout Units) Ї!!!„ Maxout H k 
段 线性 分 段 函 数 构成 ， 具有 很 强 的 拟 合 能 力 。 由 Махош 组 成 的 神经 网 络 ， 不 仅 要 学 习 神 经 元 
间 的 关系 ， 还 需要 学 习 激 活 函 数 本 身 ， 这 就 好 比 一 般 的 神经 网 络 是 一 群 比较 “ 轧 笨 ”的 人 去 
相互 协作 ， 而 Maxout 就 好 像 一 群 比较 “聪明 ”的 人 去 互相 帮助 。Maxout 虽然 能 力 强 大 ， 但 





79 


= 深度 学 习 实 战 





大 量 的 参数 也 加 重 了 训练 的 负担 。 
3.2 ”前 馈 神 经 网 络 


上 文中 用 于 解决 “ 异 或 ”问题 的 网 络 结构 , 其 实 就 是 一 个 标准 的 前 馈 神经 网 络 (Feedforward 
Neural Networks, FNNs) 或 多 层 感 知 机 (Multilayer Perceptrons, MLPs) V”, W RERE, 
也 可 以 称 为 浅 层 神经 网 络 。 所 谓 的 “ 深 ” 与 “ 浅 ” 其 实 是 指 输 入 数据 到 最 后 输出 结果 之 间 的 
层 数 ， 也 称 为 隐藏 层 hidden layer) 。 数 据 的 输入 也 称 为 输入 层 ， 而 结果 的 输出 就 称 之 为 输 
出 层 ， 我 们 之 所 以 称 其 为 前 馈 (feedforward) ， 是 因为 在 执行 阶段 信息 由 数据 X 通过 中 间 层 
函数 Jx) 一 层 一 层 地 计算 ， 最 终 由 输出 层 输出 y， 信 息 不 会 反 向 传播 ， 也 不 会 横向 传播 。 如 图 
3-9 所 示 的 前 馈 神经 网 络 示意 图 ， 红 色 的 L1 层 神经 元 x1，x2，x3 表示 输入 数据 ， 白 色 的 L4 
层 神 经 元 表示 输出 单元 ， 而 灰色 的 L2-L3 层 神 经 元 则 表示 隐 
藏 单元 。 数 据 由 输入 层 L1 接收 , 然后 通过 L2 和 L3 层 进行 特 
征 转 换 ， 最 后 到 达 L4 层 输出 结果 。 

前 馈 神 经 网 络 是 一 种 极其 重要 的 神经 网 络 类 型 ,其 至 有 了 时 
说 到 神经 网 络 时 , 默认 就 是 在 说 前 馈 神经 网 络 。 如 今 在 计算 机 
视觉 领域 大 红 大 紫 的 卷 积 神经 网 络 (Convolutional Neural 
Network, CNN) 03 就 是 一 种 特定 的 前 馈 神 经 网 络 ， 而 在 自然 
语言 处 理 领 域 独占 半壁 江山 的 循环 神经 网 络 (Recurrent Neural 








3.21 输出 层 单元 


神经 网 络 的 输出 单元 是 高 度 与 代价 函数 相关 的 ， 例 如 处 理 预 测 房价 任务 时 ， 很 可 能 就 使 
用 线性 单元 进行 输出 ， 如 果 处 理 分 类 任务 ， 就 使 用 Sigmoid 单元 或 Softmax 单元 作为 输出 。 
神经 网 络 大 多 数 应 用 都 是 分 类 任务 ， 但 Sigmoid 单元 或 Softmax 单元 又 都 有 着 容易 饱和 的 情 
况 ， 因 此 我 们 需要 在 其 “犯错 ”时 ， 给 予 较 大 的 梯度 去 抗衡 易 饱和 情况 。 由 此 ， 在 神经 网 络 
Њи, ХУЛИ НЭ AY CCross-entropy). 作为 代价 函数 。 


3.22 ”隐藏 层 单元 


神经 网 络 隐藏 层 单元 的 设计 是 一 个 极度 活跃 的 研究 领域 ， 并 且 还 没有 太 多 明确 的 理论 原 
则 。 在 3.1.1 节 提 到 过 的 所 有 神经 元 都 可 作为 隐藏 层 单元 使 用 ， 考 虑 到 Sigmoid 和 Tanh 单元 
存在 易 饱 和 现象 ， 因 此 修正 线性 单元 通常 是 一 种 非常 优秀 的 默认 隐藏 层 单元 选择 。 但 记 住 我 
们 反复 提 到 的 没有 免费 午餐 理论 ， 具 体 何 种 任务 适合 何 种 神经 元 ， 需 要 大 量 的 反复 试验 。 比 
如 在 循环 神经 网 络 中 ， 我 们 仍然 不 太 常 使 用 类 似 ReLU 这 样 的 分 段 线性 激活 函数 ， 而 更 倾向 
于 使 用 Sigmoid 或 Tanh 神经 元 ， 即 使 我 们 知道 其 拥有 易 饱 和 的 缺点 。 因 此 ， 隐 藏 层 神经 元 的 
选择 也 是 一 种 超 参数 ， 需 要 在 实际 应 用 中 进行 调试 。 

在 前 面 的 内 容 中 ， 介 绍 了 很 多 ReLU 的 优点 ， 我 们 夸 其 为 “平凡 的 天 选 之 人 ”， 当 然 也 
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介绍 了 其 有 些 缺 点 ， 在 0 处 不 可 导 和 负 半 轴 无 法 训练 。 我 们 给 出 了 一 些 ReLU 的 改进 ， 比 如 
裂缝 修正 单元 (Leaky ReLU) 和 绝对 值 修正 单元 (Absolute Value Rectification) ， 它 们 都 是 
非常 好 的 ReLU 改进 版 本 。 当 时 我 们 说 的 是 ReLU 不 可 导 也 没关系 ， 实 践 中 还 是 很 有 用 的 。 
但 毕竟 “处 女 座 ” 的 读者 也 占 十 二 分 之 一 ， 我 们 还 是 需要 “照顾 ”一 下 他 们 的 情绪 。 其 实 也 
有 平滑 版 本 的 修正 线性 单元 ， 那 就 是 Sofplus"*, WR (3.13) 所 示 为 该 函数 的 表达 式 。 
Softplus (x) = In(1+e*) 





(3.13) 


BI 3-10 是 softplus 激活 函数 的 图 像 ， 对 比 Softplus 函数 图 像 和 ReLU 函数 图 像 ， 发 现 除 
了 在 0 点 处 Softplus 更 平滑 外 ， 它 们 函数 性 质 完全 相同 ， 但 这 其 实 有 一 点 反常 理 ，Glorot 在 
2011 年 比较 了 Softplus 与 ReLU， 并 且 发 现 后 者 的 性 能 更 优秀 53。Softplus 通常 是 不 鼓励 使 用 
的 ， 虽 然 相 比 ReLU， 它 可 以 处 处 可 导 ， 并 且 相 比 Sigmoid 也 没有 易 饱 和 性 ， 但 在 实践 中 并 不 
如 我 们 想 得 那 么 美好 。 而 我 们 在 这 里 “ 跑 偏 似 的 ”介绍 Softplus 是 想 说 明 ， 很 多 直觉 上 或 理 
论 上 完美 的 东西 ， 并 不 一 定 完美 ， 实 践 才 是 检验 真理 的 唯一 标准 。 

softplusrAgz 


10) 
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图 3-10 Softplus 激活 函数 
3.23 网 络 结构 设计 


神经 网 络 结构 设计 是 深度 学 习 领 域 一 个 非常 关键 的 部 分 ， 而 结构 设计 主要 讨论 针对 某 项 
任务 网 络 需 要 多 少 神经 元 以 及 这 些 神经 元 彼此 如 何 连 接 。 我 们 将 会 在 本 书 第 6 章 和 第 7 章 专 
门 讨论 卷 积 神经 网 络 与 循环 神经 网 络 这 两 类 特殊 的 网 络 结构 ， 而 现在 主要 讨论 两 个 话题 ， 神 
经 网 络 的 层 数 ( 深 度 》 以 及 每 层 神 经 元 的 个 数 。 

通常 情况 下 ， 层 数 越 深 的 神经 网 络 ， 其 泛 化 效果 也 越 好 ， 但 同时 也 越 难 优化 。 每 层 网 络 
神经 元 个 数 越 多 ， 其 能 力也 就 越 强 ， 但 也 越 容易 过 拟 合 。 因 此 理想 的 网 络 结构 需要 通过 反复 
的 实验 来 获得 。 

通用 逼近 理论 (Universal Approximation Theorem) (表明 至 少 包含 一 个 隐藏 层 的 前 馈 神 
经 网 络 ， 其 在 隐藏 层 使 用 “ 挤 压 式 (squashing) ”激活 函数 ， 如 Sigmoid 激活 函数 ， 只 要 给 
予 足够 多 的 隐藏 单元 个 数 ， 其 就 可 以 逼近 任意 函数 。 换 而 言 之 ， 就 是 只 要 隐藏 层 神经 元 足够 
多 ， 训 练 数据 的 错误 率 就 可 以 降 到 足够 低 。 虽 然 这 一 理论 给 予 了 我 们 足够 的 “信心 ”: 只 要 
网 络 足够 大 ， 神 经 网 络 就 可 以 表示 任何 我 们 想 要 获得 的 函数 ， 但 是 这 并 不 意味 着 我 们 能 够 学 
习 到 这 种 函数 。 
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在 浅 层 网 络 中 《〈 一 隐藏 层 ) ， 一 个 隐藏 单元 可 以 当 作 是 一 个 分 割 面 ， 隐 藏 单 元 越 多 ， 其 
分 割 面 也 就 越 多 ， 分 割 得 也 就 越 精细 。 这 一 过 程 可 以 想象 成 是 将 正方 形 切 割 成 圆 形 ， 切 割 次 
数 越 多 ， 正 方形 也 就 越 像 圆 。 而 在 极端 情况 下 ， 我 们 为 每 一 条 数据 都 进行 了 “ 量 身 定制 ”的 
切割 方式 ， 但 与 其 说 是 “学 习 ”， 还 不 如 说 是 “记忆 ”。 我 们 想 要 的 是 测试 数据 的 规律 ， 但 
却 “ 记 住 ” 了 训练 数据 ， 这 也 是 神经 网 络 面临 的 最 大 问题 ， 易 过 拟 合 问题 。 但 幸运 的 是 ， 可 
以 使 用 神经 元 的 层次 组 合 来 降低 神经 元 的 数量 。Montufar (2014) [研究 显示 ， 深 层 ReLU 
的 能 力 需 要 一 个 指数 级 数量 的 浅 层 ReLU 网 络 才能 够 表示 。 

总 之 ， 拥 有 一 层 隐 藏 单元 的 前 馈 神 经 网 络 就 拥有 了 足够 能 力 去 表示 任意 的 函数 ， 但 这 种 
浅 层 网 络 神 经 元 数量 过 于 庞大 ， 并 且 和 常常 无 法 正确 地 学 习 ， 过 拟 合 现象 十 分 严重 。 在 大 多 数 
情况 下 ,使 用 深层 的 神经 网 络 可 以 有 效 地 降低 神经 元 的 数量 并 同时 降低 泛 化 错误 率 。 如 图 3-11 
所 示 ， 为 Goodfellow 在 识别 图 片 数字 任务 中 ， 显 示 的 神经 网 络 隐藏 层 层 数 与 泛 化 正确 率 的 关 
系 图 中 ， 该 结果 表明 随 着 网 络 层 数 增加 ， 其 泛 化 正确 率 也 在 不 断 增 加 。 
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图 3-11 神经 网 络 隐藏 层 层 数 与 泛 化 正确 率 关 系 图 

NET 

目前 为 止 ， 我 们 描述 的 神经 网 络 都 是 一 层 一 层 连接 起 来 的 ， 这 很 像 政府 组 织 结构 ， 底 层 
的 信息 往 上 一 级 传送 ， 上 一 级 整理 分 析 信息 后 ， 再 往 其 上 级 传送 ， 依 次 传递 到 最 高 决策 层 。 
层次 化 传递 最 大 的 缺点 就 在 于 有 用 信息 可 能 会 丢失 ， 并 且 还 会 带 来 额外 的 噪声 ， 从 而 混淆 了 
本 已 丢失 的 信息 。 那 很 自然 地 ， 高 层 为 了 获取 “真实 信息 ”也 常常 会 派 一 些 调查 人 员 去 查实 ， 
而 底层 也 经 常会 出 现 “ 跨 级 汇报 ”的 情况 。 如 果 平移 到 神经 网 络 中 ， 我 们 就 可 以 设计 一 些 路 
层 连接 ， 比 如 某 些 第 2 层 的 神经 元 会 连接 到 第 4 层 甚至 更 高 层 ， 这 样 就 缓解 了 信息 丢失 的 情 
况 ， 并 且 还 减轻 了 梯度 训练 的 困难 。 


3.3 BP 算法 


接 下 来 我 们 就 详细 介绍 神经 网 络 中 最 著名 ， 并 且 也 依然 是 现在 深度 学 习 中 最 具 统 治 的 算 
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法 ,误差 反 向 传播 算法 (Back-Propagation Algorithm) 09， 简 称 BP BY. BP 算法 在 20 世纪 
70-80 年 代 被 独立 地 发 明了 好 几 次 ,最 早 的 版 本 要 数 1969 年 Bryson 和 Ho 发 明 的 线性 版 本 外， 
而 Rumelhart, Williams 和 Hinton 在 1981 年 发 明了 非 线性 BP 算法 中 ， 不 过 第 一 次 测试 结果 
并 不 理想 ， 所 以 他 们 就 放弃 了 BP 算法 的 使 用 。1986 年 ， 他 们 使 用 一 个 令 人 信服 的 例子 来 说 
明 该 方法 可 以 做 的 事情 , 并 发 表 了 论文 , 论文 介绍 了 BP 算法 在 学 习 多 层 非 线性 神经 网 络 中 有 
着 非常 良好 的 前 景 踢 。 但 在 20 世纪 90 年 代 后 期 ， 大 多 数 严 谨 的 研究 者 开始 放弃 BP 算法 ， 
并 且 随 着 支持 向 量 机 (Support Vector Machine, SVM) POKRI, BP 算法 被 打 入 了 冷 宫 ， 不 
过 作为 心理 学 模型 来 说 ， 仍 然 被 心理 学 家 广泛 的 使 用 着 。 

BP 算法 在 20 世纪 90 年 代 后 期 遭受 冷落 的 主要 原因 在 于 当时 计算 机 的 速度 太 慢 , 有 类 标 
的 训练 数据 又 太 少 。 并 且 当 时 的 深度 网 络 模型 还 太 小 ， 也 没有 合理 的 权重 初始 化 策略 ， 再 加 
上 没有 重视 梯度 消失 等 原因 ， 因 此 在 深度 网 络 上 的 BP 算法 效果 并 不 好 ， 这 就 阻止 了 BP 算法 
的 发 展 。 而 如 今 计算 机 性 能 ， 数 据 集 都 得 到 了 有 效 提升 ，BP 算法 再 一 次 夺回 了 王座 。 

那 什么 又 是 BP 算法 呢 ? 如 果 从 数学 角度 出 发 , 其 实 就 是 复合 函数 的 求 导 问题 。“ 幸 运 的 ” 
我 们 在 中 学 时 就 被 训练 得 身 经 百 战 了 。 当 然 ， 如 果 你 忘记 复合 函数 是 什么 了 ， 我 们 也 可 以 把 
BP 算法 简单 地 理解 成 一 个 “责任 追究 ”的 过 程 。 我 们 把 神经 网 络 的 前 馈 过 程 看 作 是 某 公司 的 
战略 决策 过 程 ， 首 先 当然 是 基层 员工 去 收集 基础 信息 ， 然 后 各 自 整 理 分 析 ; 之 后 将 各 自信 息 
再 上 报 给 其 直接 上 级 ， 然 后 该 直接 上 级 再 一 次 汇总 分 析 下 属 的 信息 ; 然后 再 将 信息 上 报 给 上 
上 级 ， 这 样 一 层 一 层 分 析 上 报 ， 最 后 由 该 公司 的 CEO 进行 最 后 的 决策 。 

那 如 果 决 策 错误 了 又 要 怎么 做 呢 ? 很 自然 地 ， 那 就 是 所 有 相关 决策 人 进行 反思 与 “责任 
追究 ”。 首 先是 CEO 进行 自我 的 检讨 与 反思 ， 反 思 后 ， 他 就 要 去 追究 相关 的 责任 人 ， 会 指责 
其 直接 下 属 。 而 那些 收 到 指责 的 下 属 便 进行 反思 ， 然 后 再 去 指责 他 们 的 下 属 ， 然 后 就 层 层 地 
往 下 传递 这 份 “ 怨 念 ”。 需 要 注意 的 是 ， 这 里 的 “公司 ”比较 特殊 ， 一 个 下 属 会 汇报 信息 给 
多 个 上 级 ， 而 一 个 上 级 也 会 收 到 多 份 下 属 信息 。 因 此 ， 一 个 下 属 也 会 收 到 多 个 上 级 的 指责 ， 
然后 需要 将 所 有 上 级 的 指责 进行 “ 镭 加 ”。 

接 下 来 我 们 将 详细 地 讲解 BP 算法 的 整个 过 程 ， 会 引入 大 量 的 公式 与 符号 。 这 些 都 不 难 ， 
但 比较 烦琐 ， 希望 读者 能 静 下 心 来 ， 留 意 每 一 个 细节 ， 特 别 是 一 些 字母 的 上 标 与 下 标 ， 希 望 
读者 保持 清醒 与 耐心 。 

如 图 3-12 所 示 , 为 4 层 神经 网 络 的 示意 图 , 其 中 第 1 层 L1 为 输入 层 , L4 为 输出 层 , L2-L3 
为 隐藏 层 。 我 们 使 用 w 表示 第 1 层 、 第 i 神经 元 与 第 上 1 层 第 j 神经 元 的 连接 权重 。 如 图 3-12 
中 红色 的 连接 线 为 第 2 层 的 第 2 个 神经 元 与 第 3 层 的 第 2 个 神经 元 的 连接 权重 , 因此 用 wi 表 
示 ， 图 中 浅 蓝 色 的 连接 权重 就 表示 为 wf 2 o RANEH DO 表示 第 ! 层 的 偏 置 项 连接 到 +1 层 第 
j 神经 元 。 需 要 注意 的 是 ， 在 有 些 资料 中 下 标的 表示 方法 是 相反 的 ， 读 者 阅读 这 些 资料 时 需要 
细心 与 耐心 。 我 们 使 用 a 中 表示 第 1 层 、 第 i 神经 元 的 激活 值 ( 输 出 值 )， 图 中 蓝 色 神经 元 的 
激活 值 就 表示 为 ai? 。 并 且 为 了 方便 描述 ， 当 三 1 时 ， 将 输入 层 的 第 i 维 输入 特征 同样 用 a 表 
示 ， 也 就 是 a =x, . WR (3.14) 所 示 ， 为 片 1 层 第 j 神经 元 的 激活 表达 式 ， 其 中 函数 038 





a = f(X aP w +b) (3.14) 
i 
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而 图 中 蓝 色 神经 元 的 激活 值 就 可 以 表示 为 式 (3.15) 。 
а? = fx wÈ + Ow) tx +50) (3.15) 


Ll 





图 3-12 4 层 神 经 网 络 示意 图 


以 上 的 过 程 就 为 一 个 前 馈 传播 的 过 程 ， 那 么 如 何 修改 每 一 处 的 权重 呢 ? 可 以 从 最 简单 的 
开始 ， 如 图 3-13 所 示 ， 该 神经 网 络 是 一 个 只 有 一 维和 输入， 每 层 只 有 一 个 神经 元 的 特殊 4 层 神 


经 网 络 。 
Ll 12 13 14 


FA 3-13 4 层 简单 神经 网 络 示意 图 





该 网 络 的 输出 为 output= f (wap) 其 中 类 标 为 使 用 最 小 均 方 误差 作为 代价 函数 ， 其 
表达 式 就 是 式 (3.16) 。 
Jo) 0 feda G16 
而 我 们 的 主要 工作 其 实 就 是 求解 每 一 层 权重 的 梯度 ， 第 3 层 连 接 到 第 4 层 的 权重 梯度 就 
如 式 (3.17) 所 示 ， 求 解 时 将 w 作为 自 变 量 ，a 作为 系数 。 


9J(w) 
ди? 





= (у f (wa) f ai Jap (3.17) 


那么 第 2 层 连接 到 第 3 层 的 权重 梯度 就 如 式 〈3.18) 所 示 。 
3J(w) 


2 
ди, 








= (у= fov a) f Qva wif Ona Jay (3.18) 


第 1 层 连 接 到 第 2 层 的 权重 梯度 就 如 式 (3.19) 所 示 。 
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200 = (у = Риа) yai wp f (Waa waf nx )х, (3.19) 
m 

当 你 第 一 眼看 到 式 (3.19) ， 可 能 就 会 月 冲 了 ， 但 如 果 自 己 动手 求解 一 遍 这 个 4 RRE 
的 复合 函数 ， 那 可 能 会 大 有 启发 。 

但 这 样 做 十 分 不 方便 ， 需 要 对 其 进行 简化 。 现 在 我 们 再 次 从 上 层 往 下 求 梯度 ， 但 每 层 需 
要 求解 两 种 梯度 ， 一 种 是 该 层 的 权重 梯度 ， 用 dw 表示 ; 一 种 是 该 层 的 输入 梯度 ， 用 da 表示 。 
在 一 些 资 料 中 输入 梯度 也 被 称 为 残 差 (error term) ， 残 差 表 明了 该 神经 元 对 最 终 输 出 值 的 残 
差 产生 了 多 少 影 响 ， 而 最 终 输 出 节点 的 残 差 ， 我 们 直接 使 用 网 络 产生 的 激活 值 与 实际 值 之 间 
的 代价 函数 获得 ， 对 于 隐藏 节点 的 残 差 ， 其 为 该 节点 连接 到 上 一 层 的 所 有 残 差 加 权 求 和 。 

从 第 4 层 ， 也 就 是 从 输出 层 开始 ， 该 层 没有 权重 ， 仅 仅 计算 输出 层 残 差 : 


da! =—(у-— fna) 


第 3 层 中 需要 计算 权重 梯度 dw3 ， 该 层 残 差 da? 。 





dw - da; -f'wa a; 

da, = day (та) 
第 2 层 中 需要 计算 权重 梯度 dw ,该 层 残 差 qa? 。 

dw, = da; Гоа Ja; 

da; = da; f (wa wi 
第 1 层 中 我 们 需要 计算 权重 梯度 dw! ,该 层 残 差 da! 。 

dw, = day - f'(wi,a)a 


da, = da; Ойла м, 


现在 可 以 将 这 些 结果 ， 再 代入 到 式 〈3.19) 中 进行 验证 。 
我 们 将 该 递 推 公式 进行 推广 ， 对 于 第 n 层 (输出 层 ) 的 每 个 输出 单元 i, 得 到 式 (3.200 
来 计算 残 差 。 


da? = J (x; w) (3.20) 
对 从 第 2 层 到 第 n-1 层 ， 第 1 层 的 第 i 节点 的 残 差 的 计算 ， tsk (3.21) 所 示 。 
dal = (У daw) f(a we) (3.21) 
j= i=0 
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而 第 1 层 第 i 神经 元 到 第 +1 层 第 7 神经 元 权重 的 偏 导 数 如 式 (3.22) 所 示 , 第 ! 层 连接 到 
第 片 1 层 第 7 神经 元 的 偏 置 项 梯度 如 式 (3.23) 所 示 。 








oJ(w) m ШҮ, 
- da; 
W. f Èa (3.22) 
Өн) а dat" r aw) (3.23) 
ob; i=0 


为 了 确保 自己 深刻 地 理解 ， 可 以 耐心 地 完成 下 面 的 练习 。 


BP 算法 推倒 练习 : 计算 图 3-12 中 各 权重 及 残 差 
dat =1 das =] 


























dal = 
Burt š 1 1 1 1 
da; = = (da; ир 2 + da,w,,) f (xw. +x,W,> +хуиз +0) 





йм, Е 
а, z 
dwi, x 


2 
dw, = 




















34 深度 学 习 编码 实战 上 


本 小 节 我 们 将 编码 完成 全 连接 神经 网 络 ， 并 使 用 CIFAR-10 数据 集 进行 测试 ， 在 本 章 的 
练习 中 会 逐步 完成 以 下 操作 。 

. ”编码 实现 仿 射 层 传播 ; 

° ”编码 实现 ReLU 层 传播 ; 

e ”编码 实现 组 合 单 层 神 经 元 ; 

о 编码 实现 浅 层 全 连接 神经 网 络 ; 

。 编码 实现 深层 全 连接 神经 网 络 。 


接 下 来 打开 DOS 窗口 ， 将 路 径 跳 转 到 DLAction 目录 ， 启 动 jupyter notebook， 然 后 单 击 
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“第 3 章 练习 -神经 网 络 初步 .ipynb” 文 件 ， 按 要 求 完 成 练习 。 
首先 是 相关 的 模块 库 导 入 ， 需 要 确认 是 否 将 “DLAction/classifiers/chapter3 ”模块 导入 成 功 。 


库 导 入 代码 块 : 
# -*- coding: utf-8 -*- 








import time 
import numpy as np 
import matplotlib.pyplot as plt 
from classifiers.chapter3 import * 
from utils import * 
Yomatplotlib inline 
pltrcParams[ 'figure.figsize' ] = (10.0, 8.0) # 设置 默认 绘图 尺寸 。 
plt.rcParams[ ‘image. interpolation’ ] = mearest 
plt.rcParams[ 'image.cmap' ] = 'gray' 
Yload_ext autoreload 
Yoautoreload 2 
def rel_error( x, у): 
# 计算 相对 错误 。 
return np.max( np.abs( x — y )/ ( пр.тахітит( le-8, np.abs( x ) + np.abs( y ) ) ) ) 








模块 导入 成 功 后 ， 我 们 载 入 CIFAR-10 数据 集 。 为 了 方便 使 用 ， 我 们 将 读 取 数 据 的 各 项 预 
处 理 操作 进行 了 单独 地 封装 ， 存 放 在 “DLAction/utils/data_utils.py” 文 件 的 get_CIFAR10_data( ) 
函数 中 。 该 函数 的 返回 为 数据 字典 ， 如 训练 数据 存放 在 data['X_train] 中 ， 验 证 数据 存放 在 在 
data['X_val] 中 。 


CIFAR10 数据 导入 代码 块 : 

# 将 CIFARIO 数据 集 的 导入 ， 切 片 ， 预 处 理 操作 进行 封装 。 
data = get CIFAR10_data( ) 

X_train =data[ 'X_train' ] 

y_train =data[ 'y_train' ] 

X val = data['X val'] 

y val = data['y val'] 

X test = data['X test' ] 

y test = data['y test ] 

for k, v in data.iteritems( ): 


print '%s: ' % k, v.shape 








执行 上 述 代码 块 ， 期 望 得 到 下 列 结果 。 如 下 所 示 ， 导 入 的 数据 形状 为 原生 的 图 像 数据 ( 数 
据 个 数 ， 色 道 ， 宽 ， 高 )。 





导入 数据 代码 块 结果 : 





X val: (1000L, 3L, 32L, 32L) 
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X train: (49000L, 3L, 32L, 32L) 
X test: (1000L, 3L, 32L, 32L) 
y val: (1000L,) 


y train: (49000L.) 
y test (1000L,) 





3.4.1 实现 仿 射 传播 


仿 射 Caffine) 传播 就 是 将 各 个 输入 特征 进行 加 权 求 和 ， 如 果 下 一 层 有 m 个 神经 元 ， 那 就 
相当 于 线性 代数 中 的 m 组 线性 方程 式 。 

需要 注意 : 权重 向 量 w(D,M)，D 表示 输入 层 神经 元 数量 ，M 表示 下 一 层 神经 元 数量 。 这 
和 我 们 的 数据 格式 不 相同 ， 因 此 在 计算 前 ， 需 要 将 图 像 数据 X( 数 据 个 数 ， 色 道 ， 宽 ， 高 )， 转 
化 为 (数据 个 数 ， 色 道 X 宽 X 高 )。 接 下 来 我 们 就 实现 仿 射 层 的 前 向 传播 ， 打 开 “DLAction/clas 
Sifiers/chapter3/layers.py” 文 件 ， 实 现 affine forward 函数 。 





affine_forward 函数 代码 块 : 
def affine forward( x, w, b) : 
计算 神经 网 络 当前 层 的 前 馈 传播 ， 该 方法 计算 在 全 连接 情况 下 的 得 分 函数 。 
注意 ， 如 果 不 理解 affine 仿 射 变换 ， 简 单 地 理解 为 在 全 连接 情况 下 的 得 分 函数 即 可 。 
输入 数据 x 的 形状 为 ( N, d_1, …,d_k )， 其 中 N 表示 数据 量 ，( d_1,…,d_k ) 表 示 
每 一 通道 的 数据 维度 ， 如 果 是 图 片 ， 数 据 就 为 (长 ， 宽 ， 色 道 )。 数 据 的 总 维度 为 
D-d 1*..*d k， 我 们 需要 将 数据 重 塑 成 形状 为 (N, D) 的 数组 再 进行 仿 射 变换 。 
Inputs: 
-x 输入 数据 ， 其 形状 为 C(N, C1, .., d КО numpy 数组 。 
-w: 权重 矩阵 ， 其 形状 为 (D, M ) 的 numpy 数组 ，D 表示 输入 数据 维度 ， 
M 表示 输出 数据 维度 ， 可 以 将 D 看 成 输入 的 神经 元 个 数 ，M 看 成 输出 神经 元 个 数 。 
-b: 偏 置 向 量 ， 其 形状 为 ( M, ) 的 numpy 数组 。 
Returns 元 组 : 
- out: 形状 为 ( N, M ) 的 输出 结果 。 
- cache: ( x, w, b ) 将 中 间 结 果 进 行 缓存 便于 反 向 传播 使 用 。 


min 


out = None 

UHHHHHHBHHHHHHHHHHHHHHHHHHHHBHBHHHHHBHHHHHBHHHHHHHHBHHHHHHRRHHIE 
# 任务 : 实现 全 连接 前 向 传播 。 # 
# 提示 : 首先 你 需要 将 输入 数据 重 塑 成 行 。 # 


THHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHE 
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на 
# 结束 编码 # 





HHHH HHRHH HHR HHHH HHH HHH HRH H HH HHHH HHH HHH HHHH HHHH HH HHH 
cache = ( x, w, b) 





return out, cache 





当 完 成 了 上 述 编码 任务 后 ， 运 行 下 面 代码 块 进行 测试 ， 如 果实 现 顺利 ， 实 现 结果 和 正确 
结果 的 误差 应 该 小 于 le-9。 





测试 affine forward. 函数 : 
#np.linspaces， 规 定 起 点 、 终 点 (包含 )、 返 回 array 的 长 度 ， 
# 返回 一 个 两 端点 间 数 值 平均 分 布 的 array, 


num_inputs = 2 





input shape = ( 4, 5, 6 ) 

output dim = 3 

input size = num inputs * np.prod( input shape ) 

weight size = output. dim * np.prod( input shape ) 

х = np.linspace( -0.1, 0.5, num = input size ).reshape( num inputs, *input shape ) 

w = np.linspace( -0.2, 0.3, num = weight size ).reshape( np.prod( input. shape ), output dim ) 

b = np.linspace( -0.3, 0.1, num = output dim ) 

out, = affine forward( x, w, b ) 

correct out = np.array( [ [ 1.49834967, 1.70660132, 1.91485297 ], 
[3.25553199, 3.5141327,  3.77273342]]) 

# 比较 实现 的 结果 和 正确 结果 ， 该 误差 应 该 小 于 le-9。 

print 测试 affine_forward 函数 :' 

print ' 误 差 : ', rel_error( out, correct. out ) 

期 望 的 测试 结果 : 

测试 affine forward 函数 : 

误差 : 9.76984946819e-10 





在 前 向 传播 中 , 实现 的 其 实 就 是 out=x1 X wl+x2 X w2+b 这 个 函数 , 那 仿 射 层 的 反 向 传播 ， 
其 实 就 是 将 x. м, b 各 自 对 应 的 梯度 求 出 即 可 。 需 要 注意 的 是 ， 在 缓存 中 我 们 存储 的 是 原始 
4 四 维 图 像 数 据 。 因 此 ， 同 前 向 传播 一 样 ， 首 先 将 数据 转换 为 二 维 数组 后 ， 再 进行 求解 。 
仿 射 层 反 向 传播 : 


def affine_backward( dout, cache ) : 


mm" 








计算 仿 射 层 的 反 向 传播 。 
Inputs: 
- дош: 形状 为 (N, M) 的 上 层 梯度 。 
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- cache: 元 组 : 
-x: 形状 为 (N, а 1, .. d. КЙ Ae 
- w: 形状 为 ( D, M ) 的 权重 矩阵 。 
Retums 元 组 : 
- dx: 输入 数据 x 的 梯度 ， 其 形状 为 (N, dl, .…, d_k)。 
-dw: 权重 矩阵 w 的 梯度 ， 其 形状 为 ( D. M )。 
- db: 偏 置 项 b 的 梯度 ， 其 形状 为 ( M, )。 








x, w, b = cache 
dx, dw, db = None, None, None 
HEHHE HEHEHE HEHEHE EERE HEHH HHE H HHH H HHH HH H HH HHHH HHH HH H HHHH HHHH HHH HH HHHH HHHH 


# 任务 : 实现 仿 射 层 反 向 传播 # 
# 注意 : 需要 将 x 重 塑 成 (N,D) 后 才能 计算 各 梯度 ， # 
# 求 完 梯度 后 你 需要 将 dx 的 形状 与 x 重 塑 成 一 样 。 # 


Hii 


THHHHHHHHHBHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHHHHHHHHHHHHBHHHHHRRAE 
# 结束 编码 # 
AHH HH HHH HHHH HHH HH H HHH HH HHH HHH HH HHHH HHH HH H HHHH HHHH HHH HH HHHH HHHH 
retum dx, dw, db 








当 实现 affine backward 函数 后 , 接 下 来 使 用 数值 梯度 检验 实现 是 否 准 确 。 运行 下 列 代码 ， 
相对 梯度 误差 应 该 小 于 1e-10。 


affine_backward 函数 梯度 检验 : 
# 测试 affine_backward 函数 。 
from utils.gradient_check import * 
x = np.random.randn( 10, 2, 3 ) 

w =np.random.randn( 6, 5 ) 

b = np.random.randn( 5 ) 

dout = np.random.randn( 10, 5 ) 





dx num = eval numerical gradient array( lambda x: affine forward( x, w, b )[ 0 ], x, dout ) 
dw num = eval numerical gradient array( lambda w: affine forward( x, w, b )[ 0 ], w, dout ) 
db num = eval numerical gradient array( lambda b: affine forward( x, w, b )[ 0 ], b, dout ) 
_, cache = affine forward( x, w, b ) 

dx, dw, db — affine backward( dout, cache ) 

# 相对 误差 应 该 小 于 le-10。 
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print 测试 affine backward 函数 : 
print'dx 误差 : ', rel_error( dx num, dx ) 
print 'dw 误差 : ', rel error( dw. num, dw ) 
print 'db 误差 : ' rel_error( db. num, db ) 
正确 测试 结果 : 

测试 affine_backward 函数 : 

dx 误差 : 1.29083036942e-09 

dw 误差 : 9.33833060677e-10 

db 误差 : 1.00945726594е-11 

















3.4.2 ”实现 ReLU 传播 


我 们 介绍 过 很 多 激活 函数 ， 但 其 中 效果 最 好 ， 最 普遍 使 用 的 是 ReLU 激活 函数 ， 并 且 其 
实现 也 非常 简单 。 因 此 在 默认 情况 下 ， 都 会 使 用 ReLU 作为 隐藏 层 激活 函数 ， 接 下 来 我 们 就 
来 实现 ReLU 的 前 向 传播 以 及 反 向 传播 过 程 。 

ReLU 激活 函数 的 公式 为 max(0,x)， 我 们 直接 使 用 NumPy 提供 的 内 置 公式 即 可 。 打 开 
“DLAction/classifiers/chapter3/layers.py” 文 件 ， 实 现 relu_forward 函数 。 
relu_forward 代码 块 : 
def relu_forward( x ): 


计算 ReLUs 激活 函数 的 前 向 传播 ， 并 保存 相应 缓存 。 


Input: 

- x: 输入 数据 。 

Returns 元 组 : 

- out: 和 输入 数据 x 形状 相同 。 

- cache: Xo 

out = None 
HHHHBHHHHHBHBHHHHHBHHHHHHHHBHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHRHHIE 
# 任务 : 实现 ReLU 的 前 向 传播 。 # 
# 注意 : 只 需要 一 行 代码 即 可 完成 。 # 


Dd 


THHHHHHHHBHHHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


# 结束 编码 # 
HHHHBHHHHHBHBHHHHHBHHHHHHHHBHHHHHHHBHHHHHBHHHHHBHRHHHRHHHRBHHHIR 
cache- x 


return out, cache 
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完成 relu_forward 函数 后 ， 使 用 下 列 代码 块 进行 验证 ， 其 误差 大 约 为 le-8。 


relu_forward 函数 验证 代码 块 : 
# 测试 relu_forward 函数 。 
x 7 np.linspace( -0.5, 0.5, num = 12 ).reshape( 3, 4 ) 








out, -relu forward( x ) 


correct out = np.array( [ [ 0., 0., 0., 0., L 
[0., 0., 0.04545455,  0.13636364,], 
[0.22727273, 031818182, 040909091, 0.5, 11) 


# 比较 输出 结果 ， 其 误差 大 约 为 le-8。 
print 测试 relu forward 函数 :" 

print ' 误 差 : ', rel. error( out, correct out ) 
正确 测试 结果 : 

测试 relu forward 函数 : 

误差 : 4.99999979802e-08 











完成 简单 的 ReLU 前 向 传播 后 ， 接 下 来 实现 其 反 向 传播 。 在 前 馈 过 程 中 ， 我 们 简单 地 执 
行 max(0,x) 函 数 ， 而 反 向 传播 时 也 非常 简单 ， 我 们 只 需要 将 x>0 处 的 梯度 保留 ， 将 x<=0 处 的 
梯度 ， 设 置 为 0 即 可 。 


relu_backward 代码 块 : 
def relu_backward( dout, cache ): 
计算 ReLUs 激活 函数 的 反 向 传播 。 
Input: 
-dout 上 层 误差 梯度 。 
- cache: 输入 数据 x， 其 形状 应 该 和 dout 相同 。 
Returns: 
- dx:x 的 梯度 。 
dx, x = None, cache 
GBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHHBHHHHRHHHE 
# 任务 : 实现 ReLU 反 向 传播 。 # 
‘EEE HE AEE H H HH H HHH HH H HH H HHH HH H HHH HH HHH HHH HRH HH HHH HHHH HHHH HHH HHH 


THHHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 结束 编码 # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHI 


return dx 
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实现 relu_backward 函数 后 ， 运 行 下 列 代码 块 进行 梯度 检验 ， 其 相对 误差 大 约 为 le-12。 
relu_backward 函数 梯度 检验 代码 块 : 


x = np.random.randn( 10, 10 ) 








dout — np.random.randn( *x.shape ) 
dx num = eval_ numerical gradient array( lambda х: relu_forward( x )[ 0 ], х, dout ) 
_, cache = relu_forward( x ) 
dx = relu backward( dout, cache ) 
# 其 相对 误差 大 约 为 le-12。 
print "Н relu backward 函数 : 
print 'dx 误差 : ', rel. error( dx. num, dx ) 
正确 的 测试 结果 为 : 
测试 relu_backward 函数 : 
dx 误差 : 3.27562024188e-12 














3.4.3 ”组 合 单 层 神 经 元 


接 下 来 我 们 将 上 述 的 affine 传播 和 ReLU 传播 组 合 在 一 起 ， 形 成 一 层 完整 的 神经 元 。 在 
前 向 传播 时 ， 由 于 affine 和 ReLU 各 自 缓存 都 需要 在 反 向 传播 时 使 用 ， 因 此 需要 将 这 些 缓存 
都 保存 起 来 ， 代 码 块 如 下 所 示 。 


affine_relu_forward 函数 代码 块 : 





def affine_relu_forward( x, w, b ): 
ReLU 神经 元 前 向 传播 。 
Inputs: 
-x: 输入 到 affine 层 的 数据 。 
-w,b: affine 层 的 权重 矩阵 和 偏 置 向 量 。 
Retums 元 组 : 
- out: ReLU 的 输出 结果 。 
-cache: 前 向 传播 的 缓存 。 


THHHHHHHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


# 任务 : 实现 ReLU 神经 元 前 向 传播 。 # 
# YER: 需要 调用 affine forward 以 及 relu_forward 函数 ， # 
# 并 将 各 自 的 缓存 保存 在 cache 中 。 # 


THHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHBHE 


JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHBHHBHHE 
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# 结束 编码 # 
‘HEE EEA PARA AERA EIE 


return out, cache 





affine_relu_backward 函数 代码 块 : 








def affine_relu_backward( dout, cache ): 
ReLU 神经 元 的 反 向 传播 。 
Input: 
- dout 上 层 误差 梯度 。 
- cache: affine 缓存 及 relu 缓存 。 


Returns: 
- ах: 输入 数据 x 的 梯度 。 
- dw: 权重 矩阵 w 的 梯度 。 








= db: 偏 置 向 量 b 的 梯度 。 





KAHR HHR HHH HHH HHH SDS a SSS SSS ua a aa sa aa usa 
# 任务 : 实现 ReLU 神经 元 反 向 传播 。 # 
THUBHBHHHBHHHHHHHHHDHHHHHHHHHHBHHHHHHHHHHBHUHHHHHHBHHHHHHHE 


AHHH H HEE H EHH EE E HE EHE H HEHHE 
# 结束 编码 # 
TIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHBHHBHHBHHHHHHHHHHNE 


retum dx, dw, db 





实现 affine relu forward 和 affine relu backward 函数 之 后 ,运行 下 列 代码 进行 梯度 检验 。 





affine_relu 梯度 检验 代码 块 : 








# 初始 化 。 

x =np.random.randn( 2, 3, 4 ) 

w =np.random.randn( 12, 10 ) 

b = np.random.randn( 10 ) 

dout = np.random.randn( 2, 10 ) 

# 执行 ReLU， 获 取 分 析 梯 度 。 

out, cache = affine_relu_forward( x, w, b ) 

dx, dw, db = affine_relu_backward( dout, cache ) 
# 获取 数值 梯度 。 


dx num = eval_numerical_gradient_array( lambda x: affine_relu_forward( x, w, b )[ 0], x, dout ) 
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dw num = eval_numerical_gradient_array( lambda w: affine_relu_forward( x, w, b)[ 0 ], w, dout ) 
db num = eval_numerical_gradient_array( lambda b: affine_relu_forward( x, w, b )[ 0 ], b, dout ) 
# 比较 相对 误差 。 

print "测试 ReLU 神经 元 相对 误差 :' 

print 'dx 误差 : ', rel_error( dx. num, dx ) 

print 'dw 误差 : ', rel_error( ду пит, dw ) 

print 'db 误差 : ', rel error( db_num, db ) 

正确 的 测试 结果 : 

测试 ReLU 神经 元 相对 误差 : 

dx 误差 : 1.80292854065е-10 

dw 误差 : 3.15495388158е-10 

db 误差 : 4.91876024003е-12 

















e 输出 层 : Softmax 


在 上 一 章节 中 , 我 们 已 经 完美 地 实现 了 Softmax 分 类 器 , 现在 我 们 将 其 存放 在 “DLAction/ 
classifiers/chapter3/layers.py” 文 件 中 ， 直 接 使 用 即 可 。 阅 读 下 列 代码 ,确保 你 已 经 完全 掌握 了 


Softmax 。 


softmax_loss 函数 代码 块 : 
def softmax_loss( x, y ): 
probs = np.exp ( x - np.max( x, axis = 1, keepdims = True ) ) 
probs / = np.sum( probs, axis = 1, keepdims = True ) 
N = x.shape[ 0 ] 
loss = -np.sum( np.log( probs[ np.arange( N ), y ] ) ) / N 
dx = probs.copy( ) 
dx[ np.arange( № ), y] -= 1 
dx/=N 


return loss, dx 











运行 下 列 代 码 以 确认 我 们 的 实现 是 正确 的 。 
Softmax 验证 代码 块 : 


num_classes, num_inputs = 10, 50 








x = 0.001 * np.random.randn( num inputs, num classes ) 

y = np.random.randint( num classes, size = num inputs ) 

dx num = eval numerical gradient( lambda x: softmax loss( x, y )[ 0], 
x, verbose = False ) 

loss, dx = softmax loss( x, y ) 

# 测试 ѕойтах loss 函数 。 损 失 值 大 约 为 2.3，dx 误差 大 约 为 le-8。 

print ^n 测试 softmax_loss:' 
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print ‘loss: ', loss 


print "dx error: ', rel_error( dx num, dx ) 


正确 的 测试 结果 : 

测试 softmax loss: 

loss: 2.30251623362 

dx error: 8.01877448098е-09 











3.4.4 ”实现 浅 层 神经 网 络 


完成 上 述 的 模块 后 ， 接 下 来 我 们 将 它们 组 装 起 来 ， 编 码 实现 浅 层 〈 单 隐藏 层 ) 全 连接 神 
经 网 络 。 打 开 “DLAction/classifiers/chapter3/shallow_layer_netpy” 文 件 ， 阅 读 相 关内 容 完 成 
相应 任务 。 在 浅 层 全 连接 神经 网 络 中 ， 隐 藏 层 使 用 ReLU 作为 激活 函数 ， 输 出 层 使 用 softmax 
作为 分 类 器 ， 该 网 络 结 构 应 该 为 : affine-relu-affine-softmax 。 


° AB AIG 


在 神经 网 络 初始 化 时 ， 我 们 需要 将 连接 权重 初始 化 为 高 斯 分 布 ， 其 均值 为 零 ， 权 重 的 取 
值 范 围 (标准 差 ) 作 为 超 参数 控制 ， 偏 置 项 通常 设置 为 零 ， 代 码 块 如 下 所 示 。 





shallow_layer_net.init 代码 块 ， 
def init (self, input dim = 3 * 32 * 32, hidden dim = 100, num classes = 10, 


weight scale = le-3, reg = 0.0 ): 
初始 单 隐藏 层 全 连接 神经 网 络 。 
Inputs: 
-input_dim: 输入 数据 维度 。 
-hidden_dim: 隐藏 层 维度 。 
-num_classes: 分 类 数量 。 
- weight_scale: 权重 取 值 范围 ， 给 予 初始 化 权重 的 标准 差 。 
- reg: L2 正则 化 的 权重 衰减 系数 。 


self.params = { } 


self.reg = reg 

‘EEE EEE EH H H HH H HHH HHH HH E 
# 任务 : 初始 化 权重 以 及 偏 置 项 。 # 
# 权重 应 该 服从 标准 差 为 weight_scale 的 高 斯 分 布 ， 偏 置 项 应 该 初始 化 为 0， # 
# ”所 有 权重 矩阵 和 偏 置 向 量 应 该 存放 在 self params 字典 中 。 # 





# ”第 一 层 的 权重 和 偏 置 使 用 键 值 'W1' 以 及 'b1'， 第 二 层 使 用 "W2' 以 及 'b2'。 # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 
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HH HH HH HH 
# 结束 编码 





HHEH H HEE HEHHEHE H HHE HEHHEE H HHH E H H EE H HH H HHH HH HHH HHH H HH HH H HH H HH HHH HHHH HHHH 








网 络 损失 函数 





浅 层 神经 网 络 的 损失 函数 是 网 络 两 个 执行 阶段 的 融合 ， 当 处 于 测试 阶段 时 ， 我 们 仅仅 输 
入 数据 ， 不 输入 类 标 ， 函 数 返 回 Softmax 层 中 的 得 分 函数 即 可 ; 当 处 于 训练 阶段 时 ， 需 要 计 
算数 据 的 损失 值 以 及 相应 的 权重 梯度 ， 代 码 块 如 下 所 示 。 








shallow_layer_net.loss 代码 块 : 


def loss( self, X, y = None ): 


"ин 


计算 数据 X 的 损失 值 以 及 梯度 。 

Inputs: 

-X: 输入 数据 ， 形 状 为 (N, а 1, ..., а k ) 的 numpy 数组 。 
-y: 数据 类 标 ， 形 状 为 ( N, ) 的 numpy 数组 。 

Returns: 


如 果 y 为 None， 表 明 网 络 处 于 测试 阶段 直接 返回 输出 层 的 得 分 即 可 : 


-scores: 形状 为 (N, С), Ж ѕсогеѕ[ i, c ] 是 数据 X[ i] 在 第 c 类 上 的 得 分 。 


WÈ y 为 notNone， 表 明 网 络 处 于 训练 阶段 ， 返 回 一 个 元 组 : 
-loss: 数据 的 损失 值 。 
-grads: 与 参数 字典 相同 的 梯度 字典 ， 键 值 和 参数 字典 的 键 值 相 同 。 


scores = None 

HEEL HEE H HEE H HE EH a H H HHHH HHHH H HH H HH HHH HHH 

# 任务 : 实现 浅 层 网 络 的 前 向 传播 过 程 ， # 
# 计算 各 数据 的 分 类 得 分 。 # 
HAE EAE EEE HHH HHHH HHH HHH HHH a HH HHR HHH HH HHH HHH HHA HHH H HHH HHH 


SEE HE H HE H HE H EEE H E E H H HAHHA H HH HHH HHH HHH HH HHH HHH HHH 
# 结束 编码 # 
UHHHHHHHHBHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHHHHHHHHHHRHHBHHHHNE 
# ШЖ у None 直接 返回 得 分 。 
if y is None: 

return scores 


loss, grads = 0, í } 
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JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHHEE 


# 任务 : 实现 浅 层 网 络 的 反 向 传播 过 程 ， # 
# 将 损失 值 存储 在 loss 中 ， 将 各 层 梯度 存储 在 grads 字典 中 。  # 
# 注意 : 别 忘 了 还 要 计算 权重 衰减 。 # 








UHBHHHHHHHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHRHBRRE 


THHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRSHHNE 
# 结束 编码 # 
AHHH H HE H HEH H HH H HHHH H HH H HH HHH H HHH HHH HH H HH HH HHH HHH H HH HHH a 
return loss, grads 








完成 上 述 编码 后 , 我 们 使 用 下 列 代码 块 检验 实现 , 如 果 出 现 异 常 , 将 会 输出 相应 的 异常 结果 。 
得 分 函数 误差 应 该 小 于 1e-6， 损 失 值 误差 应 该 小 于 1e-10， 梯 度 误差 都 应 该 在 le-7 以 内 。 


浅 层 网 络 测试 代码 块 : 

N, D, H, C =3, 5, 50,7 

X = np.random.randn( N, D ) 

y = np.random.randint( C, size =N ) 
std = le-2 





model = ShallowLayerNet( input_dim = D, hidden_dim = H, 

num classes = C, weight scale = std ) 

print 测试 初始 化 … 

WI std = abs( model.params[ 'W1' J.std( ) — std ) 

b1 = model.params[ 'bl' ] 

W2 std = abs( model.params[ 'W2' J.std( ) — std ) 

b2 = model.params[ 'b2' ] 

assert МІ std < std / 10, "第 一 层 权重 初始 化 有 问题 ' 

assert np.all( bl = 0 ), 第 一 层 偏 置 初始 化 有 问题 ' 

assert W2_std < std / 10, ' 第 二 层 权重 初始 化 有 问题 ' 

assert np.all( b2 == 0 ), ' 第 二 层 偏 置 初始 化 有 问题 

print 测试 前 向 传播 过 程 … 

model.params[ 'W1' ] = np.linspace( -0.7, 0.3, num = D * H ).reshape( D, H ) 
model.params[ 'b1' ] = np.linspace( -0.1, 0.9, num = H ) 

model.params[ 'W2' ] = np.linspace( -0.3, 0.4, num = Н * C ).reshape( H, C ) 
model.params[ 'b2' ] = np.linspace( -0.9, 0.1, num = C ) 

X = np.linspace( -5.5, 4.5, num = N * D ).reshape( D, N ).T 
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scores = model.loss( X ) 






























correct scores — np.asarray( 
[[11.53165108, 12.2917344, 13.05181771, 13.81190102, 
14.57198434, 15.33206765, 16.09215096 ], 
[12.05769098, 12.74614105, 13.43459113, 14.1230412, 
14.81149128, 15.49994135, 16.18839143 ], 
[12.58373087, 13.20054771, 13.81736455, 14.43418138, 
15.05099822, 15.66781506, 16.2846319 ] ] ) 
scores diff = np.abs( scores - correct scores ).sum( ) 
assert scores diff < 1e-6, ' 前 向 传播 有 问题 ' 
print 测试 训练 损失 (无 正则 化 
у = np.asarray( [ 0, 5,1]) 
loss, grads = model.loss( X, y ) 
correct loss = 3.4702243556 
assert abs(loss - correct loss) < le-10, "训练 阶段 的 损失 值 (无 正则 化 ) 有 问题 ' 
print 测试 训练 损失 (正则 化 0.1 
modelreg = 1.0 
loss, grads = model.loss( X, y ) 
correct loss — 26.5948426952 
assert abs( loss - correct loss ) < 1e-10, 训练 阶段 的 损失 值 (有 正则 化 ) 有 问题 ' 
for reg in [ 0.0, 0.7 ]: 
print ' 梯 度 检 验 ， 正 则 化 系数 =', reg 
model.reg = reg 
loss, grads = model.loss( X, y ) 
for name in sorted( grads ): 
f= lambda : model.loss( X, y )[ 0] 
grad num = eval numerical gradient( f, model.params[ name ], 
verbose — False ) 
print '%s 相对 误差 : %.2e' % ( name, rel error(grad num, grads[ name ] ) ) 
正确 编码 后 的 测试 结果 : 
测试 初始 化 … 
测试 前 向 传播 过 程 … 
测试 训练 损失 (无 正则 化 ) 
测试 训练 损失 (正则 化 0.1) 

















梯度 检验 ， 
正则 化 系数 = 0.0 

W1 相对 误差 : 1.83e-08 
W2 相对 误差 : 3.48e-10 
bl 相对 误差 : 6.55e-09 
b2 相对 误差 : 4.33e-10 


梯度 检验 ， 

正则 化 系数 = 0.7 
WI 相对 误差 : 2.53e-07 
W2 相对 误差 : 2.85e-08 
bl 相对 误差 : 1.35e-08 
b2 相对 误差 : 9.09e-10 


























成 功 完 成 上 述 任务 后 ， 接 下 来 我 们 完成 训练 浅 层 全 连接 网 络 的 函数 编码 ， 该 流程 和 2.6.5 
节 中 的 Sofimax 训练 过 程 一 样 ， 你 应 该 非常 熟悉 了 ， 这 里 就 不 详细 解释 了 。 阅 读 
ShallowLayerNet 类 的 train0 及 predict0 函 数 ， 确 保 自己 确实 了 解 整 个 训练 流程 。 执 行 下 列 代 
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码 块 ， 测 试 网 络 性 能 。 
浅 层 神经 网 络 训练 代码 块 : 


input size = 32 * 32 * 3 
hidden size — 100 























num classes = 10 
net = ShallowLayerNet( input size, hidden size, num classes ) 
# 训练 网 络 。 
stats = net.train( X_train, y_train, X_val, y_val, 
num_iters = 2000, batch_size = 500, 
learning_rate = le-3, leaming_rate_decay = 0.95, 
reg = 0.6, verbose = True ) 
# 验证 结果 。 
val асс = (netpredict( X_val ) == y val ).mean( ) 
print ' 最 终 验 证 正确 率 : ', val. acc 
print' 历 史 最 佳 验证 正确 率 : ', stats[ 'best_val_acc' ] 
测试 结果 : 
和 迭代 次 数 0/2000: 损失 值 2.397091 
和 迭代 次 数 100 /2000: 损失 值 1.777225 
和 迭代 次 数 200 / 2000: 损失 值 1.672178 
和 迭代 次 数 300/2000: 损失 值 1.694989 









迭代 次 数 1700/2000: 损失 值 1.401761 
迭代 次 数 1800/2000: 损失 值 1.352970 
迭代 次 数 1900/2000: 损失 值 1.459668 
最 终 验证 正确 率 : 0.502 

历史 最 佳 验证 正确 率 : ”0.522 











非常 令 人 激动 , 我 们 的 训练 结果 相 比 于 Softmax, 提升 了 很 大 的 性 能 ， 接 下 来 可 视 化 整个 
训练 过 程 ， 代 码 块 如 下 所 示 ， 可 视 化 结果 如 图 3-14 所 示 。 





可 视 化 训练 历史 代码 块 : 





# 绘制 损失 函数 变化 曲线 。 

plt.subplot( 2, 1, 1 ) 

plt.plot( stats[ "loss history' ] ) 

plt.title( 'Loss history' ) 

plt.xlabel( 'Iteration' ) 

plt.ylabel( 'Loss' ) 

plt.subplot( 2, 1, 2 ) 

plt.plot( stats[ 'train асс history' ], label = 'train' ) 
plt.plot( stats[ 'val acc history' ], label = 'val' ) 
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plt.plot( [ 0.5 ] * len( stats[ 'val_acc_history' ] ), 'К-- ) 


plt.title( ‘Classification accuracy history’ ) 
plt.xlabel( 'Epoch' ) 
plt.ylabel( 'Clasification accuracy' ) 











plt.show( ) 
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3-14” 浅 层 神经 网 络 训练 曲线 


虽然 浅 层 神经 网 络 的 性 能 已 经 超过 了 50%， 相 比 于 单独 的 Softmax 分 类 器 有 了 很 大 的 性 
能 提升 ， 但 从 图 3-14 的 训练 曲线 可 以 看 出 ， 该 网 络 并 没有 出 现 明显 的 过 拟 合 现象 ， 并 且 验 证 
精度 也 没有 下 降 趋 势 。 因 此 现在 需要 修改 其 超 参数 配置 ， 尽 最 大 的 努力 训练 出 一 个 最 佳 的 浅 
层 神 经 网 络 ， 祝 你 好 运 ! 


345 ”实现 深层 全 连接 网 络 


深层 神经 网 络 相 比 于 浅 层 神经 网 络 ， 虽 然 仅 仅 是 隐藏 层 数量 变 多 而 已 ， 但 它 却 具 有 了 浅 
层 网 络 没有 的 强大 能 力 。 由 于 我 们 已 经 实现 了 浅 层 网 络 ， 深 层 网 络 的 实现 将 变 得 非常 简单 。 
现在 要 做 的 仅仅 是 将 浅 层 网 络 中 国定 的 单 隐藏 层 变 成 任意 多 层 即 可 。 在 深层 全 连接 神经 网 络 ， 
隐藏 层 使 用 ReLU 作为 激活 函数 ， 输 出 层 使 用 Softmax 作为 分 类 器 。 

打开 “DLAction/classifiers/chapter3/fc_net.py” 文 件 , 该 网 络 结构 应 该 为 { affine — relu } x (L 
-1) - affine - softmax。 我 们 已 经 将 每 层 的 维度 存储 在 layers_dims = [input_dim] + hidden_dims + 
[num_classes] 中 了 ,直接 使 用 即 可 。 仅 仅 需要 添加 一 个 循环 即 可 ， 需 要 注意 循环 是 从 0 开始 计 
数 的 ， 而 我 们 的 权重 参数 是 从 1 开始 计数 。 
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初始 化 深层 网 络 权重 代码 块 : 
def init (self, input dim = 3 * 32 * 32, hidden_dims = [ 50, 50 ], 








num classes = 10, reg = 0.0, weight scale = le-3 ): 
深层 神经 网 络 初始 化 。 
Inputs: 
-input dim: 输入 数据 维度 。 
-hidden dim: 隐藏 层 各 层 维度 。 
-num classes: 分 类 数量 。 
-weight scale: 权重 取 值 范围 ， 初 始 化 权重 的 标准 差 。 
- тер: L2 正则 化 的 权重 衰减 系数 。 
self.reg = reg 
self.num layers = 1 + len( hidden dims ) 
self.params = í } 
# 这 里 存储 的 是 每 层 的 神经 元 数量 。 
layers dims = [ input dim ] + hidden dims + [ num classes ] 
AHHH HHHH HHH HH HHHH HH HHH HHH HH HHHH HHH HH HHH H HHH HH HHH HH HHH HHHH HH HHH HHHH HH 


# 任务 : 初始 化 任意 多 层 权重 以 及 偏 置 项 。 # 
# 权重 应 该 服从 标准 差 为 weight_scale 的 高 斯 分 布 ， 偏 置 项 应 该 初始 化 为 0， # 
# 所 有 权重 矩阵 和 偏 置 向 量 应 该 存放 在 self.params 字典 中 。 # 


# 第 一 层 的 权重 和 偏 置 使 用 键 值 W1' 以 及 'bl1'， 第 n 层 使 用 Wn' 以 及 bn 。 # 
TEHHBHHBHDHHHBHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHBHHHHHHHHHHHHHBHHHHHHHH AE 


THHEHHHHHBHHHHHBHHHBHHBHHBHEHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHE 
# 结束 编码 # 
HH H H H EEE 











和 浅 层 网 络 类 似 ， 接 下 来 我 们 将 完成 深层 网 络 的 损失 函数 代码 块 ， 如 下 列 代码 所 示 ， 注 
意 正 则 化 因子 的 添加 。 提示: 网 络 前 n-1 使 用 affine_relu_forward, 最 后 一 层 使 用 affine forward 
执行 前 向 传播 过 程 。 计 算 梯 度 时 ， 情 况 类 似 ， 顺 序 相反 。 





深层 网 络 损失 函数 代码 块 : 





def loss( self, X, у = None ) : 


计算 数据 X 的 损失 值 以 及 梯度 。 
Inputs: 
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-X: 输入 数据 ， 形 状 为 (N, d_1,.…,d_k) 的 numpy 数组 。 

-y: 数据 类 标 ， 形 状 为 ( N, ) 的 numpy 数组 。 

Returns: 

如 果 y 为 None， 表 明 网 络 处 于 测试 阶段 直接 返回 输出 层 的 得 分 即 可 。 

- scores: 形 状 为 (N, C)， 其 中 scores і, с] 是 数据 X[i] 在 第 c 类 上 的 得 分 。 
如 果 y 为 not None， 表 明 网 络 处 于 训练 阶段 ， 返 回 一 个 元 组 : 

- loss: 数 据 的 损失 值 。 

- grads: 与 参数 字典 相同 的 梯度 字典 ， 键 值 和 参数 字典 的 键 值 要 相同 。 

scores = None 
THHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHNE 
# 任务 : 实现 深层 网 络 的 前 向 传播 过 程 ， # 
# 计算 各 数据 的 分 类 得 分 。 # 
AHH HH H H HH HHH H HHH HH HHH HH HHH HHHH HHH HH HHH HH HHH H HHH HH HHH H HH H HH HHH HH 


HHHH HHHH HHH HH HHHH HHH HH HHH HH HHHH HHH HH HHHH HH HHH HHH HH HHH HHHH HHH HHH HH 
# 结束 编码 # 
HHHH HHHH HHHH HHHH HHH HH HHH HH HHHH HHH HH SUS HHH 
loss, grads = 0.0, { } 

HHHH HHHH HHH HH HHHH HHH HH HHH HH HHHH HHH HH HHHH HHHH H HHH HH HHH HHHH HH HHH HHHH 


# 任务 : 实现 深层 网 络 的 反 向 传播 过 程 ， # 
# 将 损失 值 存储 在 loss 中 ， 将 各 层 梯度 存储 在 grads 字典 中 。 # 
# 注意 : 别 忘 了 还 要 计算 权重 衰减 。 # 


THHBHHHHHEHHHHHHHHBHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHHBHHHHHE 


THHHHBBHHBHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 结束 编码 # 
THBHHHHHHHHHBHHHHHHHHBHHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHRHHNE 








retum loss, grads 


在 深层 网 络 的 train 函数 中 ， 我 们 已 经 实现 了 绝 大 部 分 内 容 ， 现 在 只 需要 调用 loss 函数 计 
算 梯度 ， 然 后 结合 学 习 率 ， 修 改 权 重 即 可 。 
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深层 神经 网 络 train 函数 代码 块 : 





def train( self, X, y, X val, y val, learning rate = le-3, learning rate decay = 0.95, 
num iters = 100, batch size = 200, verbose = False ) : 
使 用 随机 梯度 下 降 训 练 神经 网 络 。 
Inputs: 
- X: 训练 数据 。 
-y: 训练 数据 类 标 。 
-X vak 验证 数据 。 
-y_val: 验 证 数据 类 标 。 
- learning rate: 学 习 率 。 
- learning rate decay: 学 习 率 衰减 系数 。 
- reg: 权重 衰减 系数 。 
-num_iters: 迭代 次 数 。 
- batch size: 批量 大 小 。 
- verbose: 是 否 在 训练 过 程 中 打印 结果 。 
num_train = X.shape[ 0 ] 
iterations_per_epoch = max( num train / batch size, 1) 
loss history = [ ] 
train acc history = [ ] 
val acc history = [ ] 
best val = -1 
for it in xrange( num_iters ) : 
X_batch = None 
y_batch = None 
sample_index = np.random.choice( num_train, batch_size, replace=True) 
X batch = X [ sample_index,:] # ( batch_size, D )。 
y batch = y[ sample index] £(l,batch size ). 
# 计算 损失 以 及 梯度 。 
loss, grads = self.loss( X_batch, y = y_batch ) 
loss_history.append( loss ) 


# 修改 权重 。 
аа 
# 任务 : 修改 深层 网 络 的 权重 。 # 


THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
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# 结束 编码 # 
JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
if verbose and it % 100 == 0: 
print 'iteration %d / %d: loss %f % ( it, num iters, loss ) 
if it % iterations per epoch == 0: 
# 检验 精度 。 
train acc = ( self.predict( X ) == y ).mean( ) 
val acc = ( self.predict( X val) == у val ).mean( ) 
train асс history.append( train acc ) 
val acc history.append( val acc ) 
if( best val < val acc ): 
best val = val acc 
# 学 习 率 衰减 。 
learning_rate * = learning_rate_decay 
return í 
'loss_history': loss_history, 
‘train_acc_history': train acc history, 
'val acc history': val acc history, 


'best val асс':Беѕі val 
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深层 网 络 的 预测 也 十 分 简单 ， 仅 仅 返 回 前 向 传播 的 最 高 得 分 的 位 置 即 可 ， 代 码 块 如 下 所 


不 。 


深层 网 络 predict 函数 代码 块 : 
def predict( self, X ) : 





Inputs: 
- X: 输入 数据 。 
Returns: 


-y_pred: 预测 类 别 。 


y_pred = None 

SHEA HE H AH HHHH HH HHHH HHH HH H HHHH HA 
# 任务 : 执行 深层 网 络 的 前 向 传播 ， # 
# 然后 使 用 输出 层 得 分 函数 预测 数据 类 标 。 # 


THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHBHHBHHBHHHHNE 
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JHHHHHHHBHHHHHBHHHHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHE 


# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHRBHHBHRHEE 
return y pred 





完成 深层 神经 网 络 的 编码 后 ， 接 下 来 我 们 就 测试 编码 是 否 正确 ， 运 行 下 列 代码 块 。 


测试 深层 网 络 代码 块 : 
N, D, HI, H2, H3, C = 2, 15, 20, 30, 20, 10 
X = np.random.randn( N, D ) 





y = np.random.randint( C, size = ( N, ) ) 
for reg in [ 0, 0.11, 3.14 ] : 

print ' 权 重 衰减 系数 =',reg 

model = FullyConnectedNet( input dim = D, hidden dims = [ H1, H2, H3 ], 

num classes = C, reg = reg, weight scale = 5e-2 ) 

loss, grads = model.loss( X, y ) 

print ' 初 始 化 化 损失 值 : ', loss 

for name in sorted( grads ) : 

f= lambda _: model.loss( X, y )[ 0] 
grad num = eval numerical gradient( f, model.params[ name ], 
verbose = False, h =1е-5) 
print "%s 相对 误差 : %.2e' % ( name, rel_error( grad. num, grads[ name ] ) ) 


希望 能 得 到 类 似 以 下 的 测试 结果 。 





W1 相对 误差 : 4.30e-07 
W2 相对 误差 : 3.45e-06 
W3 相对 误差 : 9.06e-07 
W4 相对 误差 : 3.09e-07 
bl 相对 误差 : 7.17e-08 
b2 相对 误差 : 1.53e-07 
b3 相对 误差 : 1.47e-09 
b4 相对 误差 : 1.27e-10 





W1 相对 误差 : 4.92e-07 
W2 相对 误差 : 1.04e-06 
W3 相对 误差 : 9.56e-07 
W4 相对 误差 : 2.76e-07 
bl 相对 误差 : 4.12e-07 
b2 相对 误差 : 2.33e-08 
b3 相对 误差 : 1.49e-09 
b4 相对 误差 : 1.57e-10 


深层 网 络 测试 的 正确 结果 : 

权重 衰减 系数 = 0 权重 衰减 系数 = 0.11 权重 衰减 系数 = 3.14 
初始 化 化 损失 值 : 初始 化 化 损失 值 : 初始 化 化 损失 值 : 
2.30224308129 2.54242996031 8.8189968312 


WI 相对 误差 : 1.28e-08 
W2 相对 误差 : 1.33e-07 
W3 相对 误差 : 4.96e-07 
W4 相对 误差 : 7.76e-08 
bl 相对 误差 : 3.55e-07 
b2 相对 误差 : 3.92e-08 
b3 相对 误差 : 3.20e-09 
b4 相对 误差 : 4.34e-10 








如 果 网 络 编码 顺利 ， 深 层 网 络 在 较 小 数据 集 上 很 容易 产生 过 拟 合 现象 ,运行 下 列 代码 块 ， 可 
视 化 输出 结果 如 图 3-15 所 示 。 确 保 网 络 在 20 个 训练 周期 内 训练 正确 率 接近 100%， 如 果 测 试 不 
成 功 ， 可 能 需要 重新 仔细 挑选 权重 取 值 范围 (权重 标准 差 ) 超 参数 w 及 学 习 率 /， 祝 你 好 运 ! 
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在 小 数据 集 上 测试 训练 代码 块 : 





input_size = 32 * 32 *3 

num classes = 10 

num train — 50 

X train small = X train[: num train] 

y train small = y train[ : num train ] 

w= le-1 

1-7 le-3 

net = FullyConnectedNet( input size , [ 100, 100, 100, 100,100], 

num classes, weight scale = w ,reg = 0.6 ) 

stats = net.train( X train small, y train small, X val, y val, 
num iters = 20, batch size = 25, 
learning rate = І, learning rate decay = 0.95, 
verbose = True ) 

# 绘制 损失 值 历史 曲线 。 

plt.subplot( 2, 1, 1) 

plt.plot( stats[ 'loss_history' ], 'o' ) 

plt.title( 'Loss history' ) 

plt.xlabel( "Iteration' ) 

plt.ylabel( 'Loss' ) 

# 绘制 训练 /验证 精度 历史 曲线 。 

plt.subplot( 2, 1, 2 ) 

plt.plot( stats[ 'train асс history' ], label = 'train' ) 

plt.plot( stats['val acc history' ], label = 'val' ) 

plt.title( 'Classification accuracy history' ) 

plt.xlabel( 'Epoch' ) 

plt.ylabel( 'Clasification accuracy' ) 

plt.show( ) 





如 图 3-15 所 示 ， 由 于 网 络 能 力 过 强 ， 当 使 用 训练 数据 集 较 少 时 ， 网 络 很 快 就 产生 了 严重 
过 拟 合 现象 ， 即 使 训练 数据 精度 达到 100%， 验 证 数据 精度 也 只 是 随机 “ 乱 猜 ”情况 下 的 
10% 正 确 率 。 同 时 也 有 可 能 发 现 ， 深 层 神 经 网 络 是 非常 脆弱 的 ， 如 果 超 参数 选择 不 当 ， 在 大 
多 数 超 参数 配置 下 ， 网 络 都 可 能 处 于 混沌 状态 ， 这 使 得 训练 深层 神经 网 络 变 得 十 分 困难 。 
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二 二 Loss history 
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图 3-15 ”深层 网 络 训练 少量 数据 过 拟 合 示意 图 


现在 ， 我 们 使 用 完整 的 数据 集 测试 网 络 ， 运 行 下 列 代 码 ， 深 层 网 络 训练 示意 图 如 图 3-16 
所 示 。 


深层 网 络 性 能 测试 代码 块 : 
input size = 32 * 32 * 3 
num_classes = 10 
net = FullyConnectedNet( input size, [ 100, 100 ], num classes , reg = 0.6, weight scale = 2e-2 ) 
# 训练 网 络 。 
stats = net.train( X_train, y_train, X_val, y_val, 
num_iters = 2000, batch_size = 500, 
learning rate = 8e-3, learning rate decay = 0.95, 
verbose = False ) 
# 测试 性 能 。 
val acc = (net.predict( X val ) — у val ).mean( ) 
print 验证 精度 : ', val acc 
print ' 最 佳 验证 精度 :', stats[ 'best_val_acc' ] 
# 绘制 损失 值 历史 曲线 。 
plt.subplot( 2, 1, 1 ) 
plt.plot( stats[ 'loss history' ], 'o' ) 
plt.title( 'Loss history' ) 
plt.xlabel( "Iteration' ) 
plt.ylabel( 'Loss' ) 











108 





第 3 章 前 馈 神经 网 络 _ 


# 绘制 训练 /验证 精度 历史 曲线 。 

plt.subplot( 2, 1,2) 

pltplot( stats[ 'train_acc_history’ ], label = 'train' ) 
plt.plot( stats['val acc history' ], label = 'val' ) 
plt.title( 'Classification accuracy history' ) 
plt.xlabel( 'Epoch' ) 


plt.ylabel( 'Clasification accuracy' ) 




















plt.show( ) 
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图 3-16 深层 网 络 训练 示意 图 
如 图 3-16 所 示 ， 我 们 测试 的 深层 网 络 的 性 能 接近 于 0.5， 这 连 浅 层 网 络 都 不 如 。 接 下 来 ， 
你 需要 完成 一 个 艰巨 的 任务 ， 那 就 是 训练 出 一 个 最 佳 的 深层 网 络 模型 。 虽 然 理 论 上 深层 网 络 
的 性 能 会 比 浅 层 网 络 好 很 多 ,但 其 训练 难度 十 分 大 ， 能 不 能 完成 ， 就 需要 你 的 毅力 了 ， 加 油 ! 


3.5 参考 代码 





affine_forward 函数 代码 块 : 








def affine_forward( x, w, b ) : 
out = None 
N = x.shape[ 0] 
x new = x.reshape( №, -1 ) 


out = np.dot( x new, w ) + b 
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cache = (x, w, b ) 


return out, cache 





affine_backward 函数 代码 块 : 





def affine_backward( dout, cache ) : 
x, w, b = cache 
dx, dw, db = None, None, None 
db = np.sum( dout, axis = 0 ) 
xx = x.reshape( x.shape[ 0 ], -1 ) 
dw = np.dot( xx.T, dout ) 
dx = np.dot( dout, w.T ) 
dx = np.reshape( dx, x.shape ) 
return dx, dw, db 





relu_forward 代码 块 : 

def relu_forward( x ) : 
out = None 

out = np.maximum( 0, x ) 
cache = x 


return out, cache 


| backward 代码 块 : 


defrelu_backward( dout, cache ) : 


rel 





dx, x = None, cache 


dx = dout 


return dx 








affine_relu_forward 函数 代码 块 : 

def affine_relu_forward( x, w, b ) : 
a,fc cache = affine forward( x, w, b ) 
out, relu cache = relu forward( a ) 
cache = ( fc cache, relu cache ) 


return out, cache 





affine relu backward 函数 代码 块 : 





def affine_relu_backward( dout, cache ) : 


fc cache, relu cache = cache 





da = relu backward( dout, relu cache ) 
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dx, dw, db = affine backward( da, fc cache ) 
return dx, dw, db 


shallow_layer_net.init 代码 块 : 


def init ( self, input dim = 3 * 32 * 32, hidden dim = 100, num classes = 10, 











weight scale = le-3, reg = 0.0) : 
self.params = ( } 
self.reg = reg 
self.params[ 'WI' ] = weight scale * np.random.randn( input dim, hidden dim ) 
self.params[ 'bl' ] = np.zeros( hidden dim ) 
self.params[ 'W2' ] = weight scale * np.random.randn( hidden dim, num classes ) 


self.params[ 'b2' ] = np.zeros( num classes ) 








shallow layer net.loss 代码 块 : 


def loss( self, X, y = None ) : 
scores = None 
outl, cachel = affine relu forward( X, self.params[ 'WI' ], self.params[ 'Ъ1' ] ) 
scores, cache2 = affine forward( outl, self.params[ "W2' ], self.params[ 'b2' ] ) 
4 如 果 y 为 None 直接 返回 得 分 
if y is None: 
return scores 
loss, grads = 0, { } 
loss, dy = softmax_loss( scores, y ) 
loss + = 0.5 * self.reg * ( np.sum( self.params[ 'W1' ] * self.params[ 'W1' ] ) 
+ np.sum( self.params[ "W2' ] * self.params[ 'W2' ] ) ) 
dx2, dw2, grads[ 'b2' ] = affine backward( dy, cache2 ) 
grads[ 'W2' ] = dw2 + self.reg * self.params[ "W2' ] 
dx, dwl, grads[ 'b1' ] = affine relu backward( dx2, cachel ) 
grads[ 'W1' ] = dwl + self.reg * self.params[ 'W1' ] 


return loss, grads 








初始 化 深层 网 络 权 重 代码 块 : 
def init (self, input dim = 3 * 32 * 32, hidden_dims = [ 50 ,50 ], 





num classes = 10, reg = 0.0, weight scale = le-3 ) : 
for i in xrange( self.num layers ) : 
self.params[ 'W' + str( i + 1 ) ] = weight scale * np.random.randn( 


layers dims[ i ], layers_dims[i+ 1 ]) 








self.params[ 'b' + str( i + 1 ) ] = np.zeros( ( 1, layers_dims[ i + 1])) 
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深层 网 络 损失 函数 代码 块 : 
def loss( self, X, у = None ) : 





Scores = None 
cache relu, outs, cache ош = { }, { }, { } 
outs[ 0] - X 
num h = selfnum layers - 1 
fori in xrange( num h): 
outs[ i + 1 ], cache relu[ i+ 1 ] = affine relu forward( outs[ 1], 
self.params[ 'W' + str(it+1)], 
self.params[ 'b' + str(i+1)]) 
scores, cache out = affine forward( outs[ num_h ], 
self.params[ 'W' + str( num h +1) ], 
self.params[ 'b' + str(num_h + 1)]) 
loss, grads = 0.0, { } 
дош, daffine={ }, { } 
loss, dy = softmax_loss( scores, y ) 
h = self.num layers -1 
for i in xrange( self.num_layers ) : 
loss + = 0.5 * self.reg * ( np.sum( 
self.params[ 'W' + str( i+ 1 ) ] * self.params[ 'W' + str(i+1)])) 
dout[ h ], grads[ 'W' + str( h + 1 ) ], grads[ 'b' + str( h + 1 ) ] = affine backward(dy, cache out ) 
grads[ 'W' + str( h + 1 ) ] + = self.reg * self.params[ 'W' + str(h + 1 ) ] 
for i in xrange( h ): 
dout[ h — i — 1 ], grads[ 'W' + str( h — i ) ], grads[ 'b' + str( h — i) ] affine relu backward( dout[ h — i ], 
cache relu[h — i] ) 
grads[ 'W' + str( h — i ) ] + = self.reg * self.params[ 'W' + str(h — i ) ] 


return loss, grads 














深层 神经 网 络 train 函数 代码 块 : 





def train( self, X, y, X val, y val, learning rate = le-3, learning rate decay = 0.95, 
num iters = 100, batch size — 200, verbose = False ) : 
for i,j in self.params.iteritems( ) : 


self.params[ i ] + = - learning rate * grads[ i] 








深层 网 络 predict 函数 代码 块 : 
def predict( self, X ) : 
y pred = None 





outs ={ } 


outs[ 0 ] = X 
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num_h = self.num_layers - 1 


for i in xrange( num h): 
outs[ i+ 1], -affine relu forward(outs[ i ], self.params[ 'W' + str(i+ 1 ) ], 
self.params[ 'b' + st( i+ 1)]) 
scores, = affine forward( outs[ num h ], self.params[ 'W' + str( num h + 1)]. 
self.params[ 'b' + str( num h + 1)]) 
y. pred = np.argmax( scores, axis = 1) 


return y_pred 
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还 记得 机 器 学 习 的 两 个 核心 任务 吗 ? 首先 ， 尽 可 能 地 降低 训练 错误 率 ， 上 一 章 介绍 的 神 
经 网 络 便 是 一 种 通用 的 函数 逼近 算法 。 只 要 给 予 足够 多 的 神经 元 ， 理 论 上 就 可 以 逼近 足够 低 
的 训练 错误 率 ， 但 也 很 容易 出 现 机 器 学 习 的 第 二 个 核心 问题 ， 也 就 是 严重 的 过 拟 合 现象 。 那 
如 何 使 训练 错误 率 与 测试 错误 率 的 差距 尽 可 能 的 小 呢 ? 这 便 是 本 章 讨 论 的 主要 内 容 ， 正 则 化 
(Regularization) 。 在 机 器 学 习 中 ， 所 谓 正则 化 ， 就 是 降低 验证 错误 率 (有 了 时 需要 牺牲 训练 
错误 率 ) 的 一 系列 方法 。 

对 于 深度 学 习 研 究 者 而 言 ， 幸 运 的 是 我 们 拥有 一 个 通用 算法 ， 只 要 我 们 愿意 ， 把 神经 元 
增加 、 增 加 、 再 增加 便 可 以 得 到 非常 低 的 训练 错误 率 。 但 不 幸 的 是 ， 模 型 能 力 增 大 ， 其 训练 
的 难度 也 会 剧 增 。 即 使 将 网 络 训练 得 非常 优秀 ， 也 有 可 能 面临 严重 的 过 拟 合 风险 ， 使 得 “学 
习 ” 变 得 毫 无 意义 。 因 此 我 们 需要 不 断 地 调整 ， 限 制 设计 的 网 络 模型 ， 从 而 降低 过 拟 合 风险 。 
本 章 将 介绍 一 些 常 用 的 深度 学 习 正 则 化 措施 ， 该 领域 是 深度 学 习 非 常 重要 的 研究 领域 ， 从 广 
义 上 来 说 ， 卷 积 神经 网 络 和 循环 神经 网 络 都 可 以 算是 从 仿生 学 角度 启发 的 正则 化 措施 。 在 学 
习 本 章 内 容 之 前 ， 希 望 你 已 经 熟悉 诸如 泛 化 、 欠 拟 合 、 过 拟 合 等 基础 知识 ， 如 果 不 熟悉 这 些 
内 容 ， 那 应 该 停 下 你 匆忙 的 脚步 ， 回 到 第 2 章 中 去 仔细 思考 这 些 内容 。 

从 降低 泛 化 错误 率 的 角度 出 发 ， 伟 大 的 前 人 们 已 经 提出 了 大 量 的 正则 化 策略 ， 这 其 中 最 
重要 的 方法 就 是 限制 学 习 算法 能 力 。 比如 限制 神经 元 的 数量 , 限制 参数 数目 (连接 权重 数目 ) ， 
又 或 者 在 目标 函数 中 增加 一 些 额外 的 惩罚 项 ， 这 可 以 看 作 是 一 种 软 参 数 限制 ， 比 如 权重 衰减 
正则 化 和 稀 下 性 正则 化 。 如 果 细 心 选择 ， 这 些 额外 的 限制 与 惩罚 可 以 显著 地 降低 测试 错误 率 ， 
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在 4.1 节 中 ， 我 们 介绍 的 参数 范 数 乱 罚 便 是 最 具 代 表 性 的 通用 参数 惩罚 措施 。 

有 时 这 些 限 制 与 惩罚 是 我 们 对 于 某 些 任务 的 先 验 知识 编码 ， 比 如 图 像 识别 需要 旋转 、 平 
移 不 变性 。 因 此 我 们 使 用 卷 积 、 池 化 、 参 数 共享 等 限制 措施 去 构建 网 络 。 在 42 节 中 ， 我 们 
将 介绍 参数 绑 定 与 参数 共享 措施 ， 在 特定 的 任务 中 加 入 先 验 知识 去 限制 网 络 。 

在 43 节 中 ， 我 们 将 介绍 噪声 注入 与 数据 扩充 。 我 们 会 进行 “的 乱 ”， 在 输入 数据 或 输 
出 结果 中 加 入 噪声 进行 网 络 训练 ， 就 如 同 你 看 书 时 有 人 大 吵 大 冰 ， 你 训练 投篮 时 有 人 不 停 地 
对 你 进行 干扰 ， 这 样 训 练 出 的 网 络 便 会 有 更 强 的 健壮 性 ， 其 泛 化 能 力也 就 更 好 。 

如 果 从 数据 的 角度 思考 过 拟 合 现象 ， 那 可 能 就 是 “多 ”与 “ 少 ”的 问题 。 所 谓 的 “多 ” 
是 指 学 习 相同 重复 的 内 容 太 多 ， 就 是 训练 周期 太 长 ; 所 谓 的 “ 少 ” 指 的 是 学 习 内 容 的 多 样 性 
太 少 ， 便 是 数据 量 太 少 。 平 移 到 深度 学 习 中 ， 我 们 会 介绍 两 种 策略 解决 过 拟 合 现象 ， 第 一 种 
你 已 经 很 熟悉 了 ， 那 就 是 给 予 更 多 的 学 习 资 料 〈 数 据 ) 。 如 果 数 据 量 有 些 “ 提 襟 见 肘 ”， 没 
KA, TE 4.3 节 中 我 们 还 可 以 “伪造 ”数据 进行 数据 扩充 来 帮助 网 络 训练 。 针 对 训练 周期 太 
长 的 问题 ， 我 们 在 4.5 节 中 使 用 称 为 旱 停 (Early-Stopping) 的 技术 去 提前 终止 学 习 。 

所 谓 “ 三 个 臭 皮 匠 赛 过 诸葛 亮 ”， 那 三 个 “ 书 呆 子 ”是 否 匹 敌 一 个 “万 金 油 ” 呢 ? 在 4.6 
节 中 ， 借 用 集成 学 习 (Ensemble Learning) 的 思路 ， 最 后 我 们 将 介绍 一 种 婚 简单 又 有 用 的 深 
度 学 习 正 则 化 方法 一 一 Dropout。 

需要 注意 的 是 ， 深 度 学 习 算法 是 一 个 极其 复杂 的 模型 ， 而 正则 化 做 的 大 部 分 措施 都 可 以 
解释 为 控制 模型 的 复杂 度 。 但 控制 模型 复杂 度 ， 并 不 是 简单 地 找到 模型 适合 的 大 小 ， 适 合 的 
参数 数量 。 相 反 ， 在 实际 应 用 中 我 们 发 现 ， 最 佳 模型 是 那些 模型 规模 很 大 ， 但 拥有 恰当 正则 
化 的 模型 。 接 下 来 我 们 就 正式 开始 我 们 的 深度 学 习 正 则 化 之 旅 。 


4.1 参数 范 数 惩罚 


机 器 学 习 中 最 常用 的 正则 化 措施 是 去 限制 模型 的 能 力 ， 而 这 其 中 最 著名 的 方法 便 是 LOY 
L1 5 L2 范 数 惩罚 。 

假设 我 们 要 拟 合 一 群 二 次 函数 分 布 的 数据 ， 但 我 们 并 不 知道 其 真实 的 分 布 规律 〈 知 道 也 
就 不 用 学 习 了 ) 。 学 习 的 本 质 其 实 就 是 不 停 地 尝试 ， 我 们 先 从 一 次 函数 进行 尝试 ， 然 后 是 五 
次 函数 ， 九 次 函数 ， 三 次 函数 ， 二 次 函数 等 ， 然 后 我 们 选 出 其 中 效果 最 好 的 一 个 ， 那 便 是 最 
佳 模型 。 

以 上 方法 可 能 读者 会 有 些 失 望 ， 但 未 尝 不 是 一 个 好 方法 。 当 然 ， 为 了 显得 “高 端 ” 些 ， 
我 们 需要 将 上 面 的 内 容 粉 饰 一 下 。 我 们 知道 九 次 多 项 式 包 含 了 前 八 次 多 项 式 ， 那 么 为 了 节省 
力气 ， 我 们 想 要 八 次 多 项 式 时 ， 只 需要 将 九 次 项 系数 设置 为 0 就 可 以 了 。 有 了 这 种 想法 ， 多 
项 式 函 数 的 模型 选择 ， 其 实 就 变 成 了 高 次 多 项 式 系数 的 限制 。 

从 高 次 多 项 式 函 数 一 直到 二 次 多 项 式 函 数 的 尝试 ， 其 实 就 是 在 限制 参数 的 个 数 ， 如 式 
(4.1) 所 示 的 九 次 多 项 式 。 

















Хо) 2 wi wa ew ew ew? (4.1) 


到 最 佳 的 式 〈4.2) 所 示 的 二 次 多 项 式 。 
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F(x) =0x? + 0x8 08 wa + yx! wu (4.2) 
其 实 就 是 高 次 项 的 系数 为 零 ， 用 数学 符号 表示 ， 便 如 式 (43) 所 示 。 
min(J(w)) (43) 
stw = w, == =0 


这 样 的 思路 非常 好 ， 但 就 是 不 方便 实现 。 在 实际 应 用 中 ， 需 要 标记 所 有 函数 对 应 的 参数 ， 
对 于 深度 学 习 这 种 拥有 百 万 级 参数 规模 的 学 习 模型 来 说 ， 那 简直 是 不 可 想象 的 。 
因此 我 们 需要 放松 一 下 严 苛 的 限制 ， 我 们 不 从 高 到 底 ， 顺 序 地 限制 参数 ， 仅 仅 是 控制 参 
数 的 数目 。 如 式 〈4.4) 所 示 ， 我 们 将 参数 不 等 于 0 的 个 数控 制 在 с 以 内 来 达到 限制 模型 的 目 
的 ， 而 这 种 方法 就 被 称 为 LO 范 数 惩罚 。 
min(J (w)) 


ud (4.4) 
st.) Iw, #0}<c 
i=l 


虽然 我 们 放松 了 限制 ， 但 以 上 的 表达 式 还 是 不 太 完美 ， 对 于 实际 应 用 还 是 不 太 友好 。 那 
我 们 不 妨 再 放松 一 下 限制 ， 不 要 求 参数 的 非 零 数 量 被 限制 在 某 个 范围 内 ， 但 要 求 参数 数值 的 
总 和 要 小 于 某 个 数值 ,如 式 (4.5) 所 示 , 这 种 对 参数 数值 总 和 的 限制 就 被 称 为 L1 RET, 
也 被 称 为 参数 稀疏 性 每 罚 。 


min( J(w)) 

m (4.5) 
st |w |< c 

i=l 


虽然 高 次 项 的 系数 很 可 能 不 为 零 ， 但 如 果 发 生 如 式 〈4.6) 所 示 的 情况 ， 那 高 次 项 也 可 被 
轻松 地 忽略 了 。 


f(x) 20.000 1x? + 0.0003x* +--+ 0.00222 + mx? + wx ew? (4.6) 
由 此 ， 我 们 的 机 器 学 习 问 题 就 变 成 了 一 个 求 条 件 极 值 的 数学 问题 。 但 这 还 不 完美 ， 因 为 
带 有 绝对 值 。 我 们 再 次 放松 限制 ,将 对 参数 的 绝对 值 求 和 改 成 对 参数 的 平方 求 和 ， 如 式 〈4.7) 
所 示 ， 这 就 是 L2 范 数 乱 罚 外， 也 就 我 们 非常 熟悉 的 权重 衰减 乱 罚 。 
min(J(w)) 


m ы (4.7) 
st (w) < c 


i=l 
我 们 可 以 通过 e 的 值 来 控制 学 习 算 法 模型 的 能 力 ，c 越 大 模型 能 力 就 越 强 ，c 越 小 模型 能 


力 就 越 弱 。 如 果 大 家 基础 较 好 ， 该 条 件 极 值 可 以 使 用 拉 格 朗 日 乘 子 法 来 求解 。 当 然 ， 如 果 早 
已 访 了 也 没关系 ， 接 下 来 我 们 就 仔细 研究 下 权重 衰减 正则 化 。 
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41.1 L2 参数 正则 化 


代价 函数 的 梯度 如 图 4-1 实 线 等 高 线 椭圆 所 示 ， 而 梯度 的 最 小 值 为 其 中 心 点 ， 如 果 没 有 
任何 限制 ， 学 习 的 过 程 就 是 每 次 沿 着 梯度 等 高 线 垂直 的 方向 寻找 极 值 。 而 图 中 的 虚线 押 示 就 
是 权重 衰减 项 ， 虚 线 圆 的 半径 便 是 权重 衰减 项 中 的 常数 c。 








wy 


图 4-1 权重 衰减 几何 意义 示意 图 


这 就 如 同一 个 带 线 的 小 球 的 一 端 被 固定 在 原点 ， 而 我 们 拿 着 小 球 尽力 地 靠近 椭圆 的 中 心 
点 。 如 果 该 小 球 的 强 过 长 (c 值 过 大 ) ， 小 球 几乎 就 没 被 限制 ， 轻 易 地 就 到 达 了 最 小 值 ， 但 也 
造成 了 过 度 拟 合 现象 。 如 果 绳 子 过 短 ， 那 我 们 距离 训练 数据 的 最 优 值 处 就 很 还 ， 也 就 造成 了 
从 拟 合 现象 。 我 们 假设 一 种 状态 ， 绳 长 适中 ， 那 该 状态 下 的 最 优 效果 是 什么 呢 ? 

有 兴趣 的 读者 可 以 自己 动手 画 一 画 ， 做 一 下 试验 ， 但 其 实 这 并 不 难 想象 ， 最 近 的 点 就 在 
椭圆 中 心 与 原点 连 线 上 。 此 时 又 是 一 个 什么 状态 呢 ? 非常 巧 ， 此 时 代价 函数 的 负 梯 度 与 固定 
-端的 带 强 小 球 的 法 向 量 是 平行 的 ， 我 们 用 数学 符号 刻画 ， 便 如 式 (4.8) 所 示 。 


V(J(w))+2Aw 20 (4.8) 


需要 说 明 的 是 带 绳 小 球 可 以 用 向 量 wzw <c 表 示 ， 因 此 该 圆 的 法 向 量 就 为 向 量 mw， 如 果 读 
者 忘记 了 没关系 , 只 需 了 解 即 可 。 其 中 常数 2 是 我 刻意 添加 的 , 只 是 为 了 构造 函数 方便 , 而 4 
为 一 个 使 得 代价 函数 梯度 与 法 向 量 平行 的 参数 ， 而 该 参数 便 是 大 名 易 易 的 拉 格 朗 日 乘 子 ， 并 
且 就 如 同 绳 长 不 能 为 负数 ，4 也 需要 大 于 0。 

现在 问题 似乎 变 得 有 些 复杂 了 ， 以 前 我 们 只 需求 解 代价 函数 的 梯度 ， 然 后 通过 梯度 下 降 
法 来 慢 慢 接近 梯度 为 零 的 区 域 ， 但 现在 引入 新 的 参数 又 如 何 解决 呢 ? 

在 实际 应 用 中 ，4 通常 作为 超 参数 ， 人 为 进行 选择 ， 其 值 需要 通过 具体 的 验证 数据 测试 
结果 进行 经 验 性 选择 。 现 在 我 们 把 4 当 作 一 个 常数 处 理 , 但 是 代价 函数 的 梯度 依然 无 法 求解 。 
我 们 不 妨 这 样 思考 ， 最 小 化 代价 函数 等 价 于 代价 函数 的 梯度 为 0。 那 代价 函数 梯度 加 上 某 个 
数 为 0， 那 也 等 价 于 原 代价 函数 加 上 某 个 函数 。 那 我 们 不 妨 将 其 积分 ， 如 式 〈4.9) 所 示 ， 这 
就 是 新 的 代价 函数 。 
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Jg (w) = Ja(w)+ Aww (4.9) 


如 果 我 们 使 用 最 小 均 方 误差 函数 作为 代价 函数 ， 那 么 该 正则 化 代价 函数 就 如 式 〈4.10) 
所 示 。 


Ји) = (у= f(x)? + Aw" w (4.10) 


其 中 4 控制 着 机 器 学 习 算 法 模型 的 能 力 ， 如 果 4 =0， 则 退化 成 原始 模型 ，4 值 越 大 ， 则 
惩罚 越 严 重 ， 模 型 的 能 力 越 弱 。4 过 小 ， 容 易 发 生 过 拟 合 现象 ， 而 4 过 大 ， 容 易 发 生 从 拟 合 
现象 。 

在 计算 参数 梯度 时 ， 如 式 〈4.11) 所 示 ， 也 非常 简单 ， 其 实 就 是 在 原 代价 函数 梯度 的 基 
础 上 再 加 上 4 倍 的 参数 本 身 。 我 们 这 里 把 2 省 略 了 ， 因 为 4 和 2 都 是 常数 ， 只 需要 调整 4 Вр 
可 。 











е = T + Aw, (4.11) 


4.1.2 L1 正则 化 


权重 衰减 是 最 常用 的 正则 化 措施 ， 其 优点 在 于 可 导 并 且 容 易 优 化 。 但 正如 开始 时 介绍 范 
数 惩罚 方法 时 ， 我 们 一 次 一 次 放松 限制 推出 了 权重 衰减 ， 如 果 想 要 更 加 严格 地 限制 ，L1 正则 
化 便 是 一 个 不 错 的 选择 。 如 式 〈4.12) 所 示 ， 便 是 加 入 LI1 惩罚 的 代价 函数 。 


Jg (и) 7 Jw) +4 || w |l (4.12) 


其 中 |lwlh 表示 所 有 参数 的 绝对 值 求 和 ， 并 不 是 求 向 量 模 长 。 如 果 不 太 习惯 ， 我 们 也 可 以 
将 式 (4.12) 写成 式 (4.13) 所 示 的 表达 式 。 


Jg (0) = Jaw) +A |w | (4.13) 
i=l 

在 计算 参数 梯度 时 ， 如 式 (4.14) 所 示 ， 也 非常 简单 ， 由 于 绝对 值 不 可 导 ， 我 们 其 实 只 
是 在 原 代价 函数 梯度 的 基础 上 再 加 上 A 与 参数 本 身 的 符号 乘积 。 

Ral i лаа TS 
ow, Ow, 

其 中 sign(x) 表 示 取 x 的 符号 ， 比 如 sign(-5)=-1， 而 sign(5)=1。 需要 注意 的 是 ， 相 比 于 权 
ER, LI 正则 化 的 限制 更 为 严格 ， 因 此 也 就 更 加 的 稀 路 (sparse〉， 稀 足 性 也 就 是 我 们 最 
终 优化 到 的 参数 中 有 许多 0。 稀 玻 性 的 一 大 好 处 是 有 利于 特征 选择 (Feature Selection) 四， 由 
于 大 多 数 参数 都 为 0， 而 这 些 0 参数 对 应 的 特征 就 没有 被 使 用 ， 实 际 上 我 们 就 选择 出 了 一 些 
重要 特征 对 数据 进行 预测 ， 并 自动 筛选 掉 一 些 无 用 的 特征 ， 这 些 无 用 特征 很 大 程度 上 也 有 可 
能 是 噪声 特征 。 
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42 ”参数 绑 定 与 参数 共享 


目前 为 止 ， 我 们 讨论 的 正则 化 措施 都 是 通过 限制 模型 参数 的 方法 来 限制 模型 的 能 力 ， 但 
这 种 通用 的 限制 太 过 宽泛 ， 这 里 再 次 提起 “ 没 免费 午餐 理论 ”， 机 器 学 习 算 法 没有 好 坏 之 分 ， 
所 谓 的 好 坏 只 是 针对 的 数据 集 与 问题 域 而 言 。 迁 移 到 正则 化 措施 中 ， 如 果 我 们 在 特定 领域 对 
参数 进行 特定 的 限制 ， 可 能 效果 会 更 好 。 因 此 ， 我 们 经 常 需要 添加 一 些 先 验 知 识 去 限制 模型 
参数 。 虽 然 我 们 并 不 能 精确 地 知道 参数 需要 什么 值 ， 但 对 于 特定 的 领域 与 特定 的 模型 结构 ， 
模型 参数 之 间 存 在 着 某 些 依赖 。 

假设 某 个 同学 数学 非常 有 天 赋 ， 那 他 学 习 物 理 、 化 学 和 计算 机 等 内 容 也 会 变 得 非常 轻松 。 
某 个 同学 文学 功底 扎实 ， 出 口 成 章 ， 那 她 在 英语 及 艺术 方面 也 可 能 高 人 一 筹 。 在 机 器 学 习 中 ， 
某 个 模型 可 以 完美 地 识别 “ 猫 ”， 那 通过 训练 ， 它 也 可 以 非常 好 地 识别 出 “ 狗 ”。 更 具体 些 ， 
识别 “ 猫 ” 使 用 的 参数 和 识别 “ 狗 ” 使 用 的 参数 会 比较 接近 。 因 此 我 们 在 训练 其 识别 “ 狗 ” 
时 ， 就 可 以 利用 识别 “ 猫 ” 的 参数 进行 训练 ， 这 种 重复 利用 参数 在 不 同 任务 中 的 方法 也 被 称 
为 多 任务 学 习 (Multi-task Learning) 

在 图 像 识别 领域 ， 图 像 应 该 具有 平移 、 旋 转 等 空间 不 变性 特征 ， 而 对 于 时 间 序 列 数 据 ， 
数据 与 数据 之 间 应 该 具有 时 间 不 变性 特征 。 例 如 ， 一 幅 图 中 有 一 只 小 猫 ， 如 果 将 该 图 中 的 每 
个 像素 都 向 右 平 移 一 个 像素 点 ， 这 只 小 猫 依 然 在 图 中 。 对 于 人 而 言 ， 平 移 一 个 像素 点 根本 分 
辨 不 出 区 别 ， 但 对 于 机 器 学 习 算法 而 言 ， 所 有 的 像素 特征 对 应 的 参数 都 发 生 了 偏 移 ， 而 机 器 
学 习 算 法 很 可 能 就 认为 这 是 两 幅 图 像 。 为 了 提取 到 这 种 不 变性 特征 ， 我 们 迫使 相 邻 数据 特征 
参数 相同 ， 而 这 种 正则 化 方法 也 称 为 参数 共享 (Parameter Sharing) 。 

卷 积 神经 网 络 (Convolutional Neural Network, CNN) 回 是 目前 最 流行 的 一 种 神经 网 络 ， 
广泛 应 用 于 计算 机 视觉 领域 。 而 该 网 络 的 核心 一 一 卷 积 操作 ， 其 实 就 是 参数 共享 。 参 数 共享 
使 得 卷 积 网 络 极 大 地 降低 了 参数 的 规模 ， 并 且 在 不 增加 训练 数据 量 的 前 担 下， 增加 了 网 络 的 
尺寸 。 我 们 将 会 在 第 6 章 中 详细 地 介绍 卷 积 网 络 的 各 项 工作 原理 。 


43 ”噪声 注入 与 数据 扩充 


在 机 器 学 习 中 ， 想 要 降低 泛 化 错误 率 最 好 的 方法 是 训练 更 多 的 数据 ， 但 在 现实 中 ， 数 据 
总 是 有 限 的 ， 并 且 还 需要 大 量 的 成 本 。 那 么 问题 就 来 了 ， 更 多 的 数据 使 得 模型 性 能 更 好 ， 但 
我 们 又 没有 更 多 的 数据 , 那 该 怎么 办 呢 ? 其 中 一 个 有 用 而 高 效 的 方法 就 是 生成 伪造 数据 (fake 
data) ， 然 后 将 这 些 数据 添加 到 训练 集中 进行 数据 扩充 (Data Augmentation) 中。 虽然 听 上 去 
似乎 在 教 大 家 “造假 ”， 但 对 于 某 些 机 器 学 习 任 务 而 言 ， 创 造 新 的 伪造 数据 是 非常 合理 的 。 

在 分 类 任务 中 ， 分 类 器 需要 使 用 复杂 高 维 的 输入 数据 x 以 及 数据 所 对 应 的 类 标 y 进行 关 
联 学 习 。 这 也 意味 着 ， 分 类 器 面临 的 主要 任务 是 从 各 种 变化 的 数据 中 获得 某 种 稳定 分 布 的 不 
变性 。 既 然 平移 、 旋 转 后 的 图 像 都 是 同一 个 对 象 ， 那 么 在 训练 数据 中 扭曲 一 定 程度 的 输入 数 
Hix, 分 类 器 也 应 该 将 该 数据 与 y 进行 关联 ， 但 这 一 方法 的 应 用 范围 还 比较 窗 。 例 如 在 密度 佑 
计 任 务 中 ， 要 生成 新 的 伪造 数据 是 非常 困难 的 ， 因 为 生成 新 数据 的 前 提 是 我 们 已 经 解决 了 密 
度 估 计 问 题 。 
生成 伪造 数据 最 佳 的 应 用 场景 是 一 类 特定 的 分 类 任务 一 一 对 象 识别 。 图 片 是 一 种 高 维 复 
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杂 的 数据 ， 并 且 有 者 平移 、 旋 转 不 变性 等 特点 。 在 前 一 小 节 中 ， 介 绍 了 如 果 一 幅 图 片 全 部 向 
右 平移 一 个 像素 ， 那 对 于 机 器 学 习 算法 来 说 ， 便 彻底 成 了 一 幅 新 图 像 ， 因 此 我 们 需要 先 验 地 
加 入 参数 共享 等 措施 来 学 习 网 络 。 那 我 们 不 妨 换个 角度 ， 我 们 将 这 些 先 验 知识 加 入 到 数据 中 
去 ， 即 平移 、 旋 转 、 拉 伸 之 后 的 图 像 数据 依然 是 原 数据 对 象 。 我 们 将 这 些 生 成 的 “新 图 像 数 
据 ” 加 入 训练 集中 训练 ， 那 训练 数据 就 可 能 增加 十 余 倍 的 数据 量 ， 这 样 训练 出 来 的 模型 同样 
也 可 以 具备 这 种 空间 不 变性 能 力 ， 但 我 们 必须 谨慎 地 去 变换 这 些 数据 。 例 如 在 字符 识别 中 ， 
Tf 'b' Al ‘d? 水 平 翻转 ，“6” 和 “9” 旋 转 180”， 那 就 都 成 了 同一 个 数据 。 此 时 的 伪造 
数据 ， 就 真 的 变 成 了 错误 数据 。 

比较 机 器 学 习 基 准 结果 时 ， 需 要 注意 数据 扩充 的 影响 。 有 时 手工 设计 的 数据 扩充 方法 能 
够 显著 地 降低 泛 化 错误 率 ， 因 此 比较 两 种 算法 的 性 能 时 ， 执 行 控制 试验 就 是 非常 有 必要 的 。 
比较 算法 A 与 算法 B 时 ， 我 们 需要 确保 这 两 种 算法 使 用 相同 的 手工 设计 数据 扩充 ， 假 设 算法 
А 在 没有 数据 扩充 时 表现 糟糕， 而 算法 B 在 加 入 人 工 合成 数据 后 性 能 优越 ， 这 其 实说 明 不 了 
什么 。 在 这 样 的 例子 中 很 有 可 能 是 合成 数据 造成 了 性 能 的 提高 ， 而 不 是 算法 B 本 身 拥有 更 好 
的 性 能 。 但 是 否 在 试验 中 注入 噪声 或 扩充 数据 是 一 种 非常 主观 的 判断 ， 例 如 ， 在 机 器 学 习 算 
法 的 输入 中 注入 高 斯 噪声 被 认为 是 机 器 学 习 算法 的 一 部 分 ， 然 而 对 图 片 进行 随机 剪裁 却 被 认 
为 是 单独 地 预 处 理 步骤 。 


。 ”在 输入 中 注入 嗓 声 


数据 扩充 也 可 以 看 作 是 在 输入 数据 中 注入 噪声 四， 从 而 迫使 算法 拥有 更 强 的 健壮 性 (也 
可 以 将 注入 噪声 看 作 是 一 种 数据 扩充 ) 。 神 经 网 络 容易 过 拟 合 的 原因 之 一 就 是 对 于 噪声 没有 
太 好 的 抗 噪 能 力 。 正 所 谓 “ 你 怕 什 么 ， 就 应 该 勇敢 地 去 面 对 什 么 。” 最 简单 的 提高 网 络 抗 噪 
声 能 力 方法 ， 就 是 在 训练 时 加 入 随机 噪声 一 起 训练 。 比 如 在 非 监督 学 习 算法 降 噪 自动 编码 器 
(Denoising Autoencoder) 四 中 ， 在 输入 层 进 行 噪声 注入 然后 学 习 无 噪声 的 图 片 ， 便 是 一 种 很 
好 的 提高 网 络 健壮 性 的 方式 。 


e ”在 隐藏 层 注 入 噪声 





对 于 某 些 模型 ， 注 入 噪声 也 相当 于 对 参数 进行 范 数 惩罚 由。 通常 而 言 ， 注 入 噪声 要 比 简 
单 地 收缩 参数 更 有 效 ， 尤 其 是 将 噪声 注入 到 隐藏 层 中 。 而 隐藏 层 注入 噪声 是 一 个 重要 的 主题 ， 
我 们 将 在 4.6 小 节 Dropoutt" 算 法 中 重点 介绍 , 该 方法 也 可 以 看 作 是 通过 加 入 噪声 重 构 新 输入 
的 一 种 正则 化 策略 。 

除了 在 数据 以 及 隐藏 层 输入 中 注入 噪声 ， 在 权重 (参数 ) 中 注入 噪声 也 是 一 种 有 效 的 正 
则 化 措施 。 这 种 方法 在 某 种 程度 上 可 以 等 价 地 解释 为 传统 的 范 数 惩罚 ， 该 方法 鼓励 参数 找到 
一 个 参数 空间 ， 而 该 空间 对 于 微小 的 参数 变化 所 引起 的 输出 变化 的 影响 很 小 。 换 而 言 之 ， 就 
是 将 模型 送 进 了 一 个 对 于 微小 变化 不 敏感 的 区 域 ， 我 们 不 仅 找 到 了 最 小 值 ， 我 们 还 找到 了 一 
个 宽 扁 的 最 小 值 区 域 "1。 


° RRP EAR 


数据 集中 或 多 或 少 都 带 有 错误 的 类 标 y, 如果 我 们 使 用 这 些 数据 进行 训练 , 那 这 就 好 比 一 
个 专心 听讲 且 对 老师 十 分 尊敬 的 好 学 生 ， 认 真 学 习 老 师 教 给 他 的 所 有 知识 ， 但 老师 教 给 他 的 
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却 是 错误 的 知识 。 最 不 幸 的 是 ， 学 生还 对 老师 深信 不 疑 ， 即 使 发 现 了 错误 ， 也 只 会 认为 是 自 
己 愚 钝 ， 不 断 地 和 否定 自己 ， 不 断 地 在 痛苦 中 挣扎 。 虽 然 我 们 章 尽 全 力 地 避免 错误 标记 数据 ， 
但 这 并 不 如 我 们 想象 得 那么 美好 ， 人 为 地 添加 错误 在 所 难免 。 与 其 小 心 翼 避 地 标记 数据 做 个 
完美 的 “老师 ”， 还 不 如 直接 就 告诉 学 生 “ 老 师 ” 并 不 完美 ， “老师 ”也 会 犯错 。 而 解决 这 
种 问题 的 具体 措施 就 是 在 类 标 中 加 入 一 定 的 噪声 (3， 例 如 可 以 设置 一 个 很 小 的 常数 &， 我 们 
将 训练 数据 的 类 标 y 正确 的 概率 设置 为 1-& 。 


44 稀疏 表征 


在 4.1 参数 范 数 惩罚 小 节 中 ， 我 们 通过 直接 限制 可 用 参数 规模 ， 如 L1. L2 参数 惩罚 ， 来 
限制 模型 的 能 力 ， 从 而 降低 过 拟 合 风险 。 接 下 来 ， 我 们 介绍 一 种 通过 作用 在 神经 网 络 激活 单 
元 的 惩罚 策略 ， 来 提高 隐藏 层 的 稀疏 性 ， 该 方法 可 算 作 是 一 种 间接 的 模型 参数 惩罚 。 
生物 进化 的 一 个 重要 趋势 就 是 尽 可 能 地 节约 能 源 ， 而 我 们 的 大 脑 也 符合 节能 的 原则 。 大 
脑 中 每 个 神经 元 都 连接 着 成 千 上 万 的 神经 元 ， 但 其 实 大 部 分 神经 元 都 是 处 于 抑制 状态 ， 只 有 
少 部 分 的 神经 元 接受 刺激 会 处 于 激活 状态 ， 因 此 我 们 需要 将 特定 的 信息 交 给 特定 的 神经 元 进 
行 处 理 。 受 此 启发 ， 我 们 就 期 望 使 用 某 种 惩罚 措施 来 抑制 大 部 分 神经 元 。 当 信息 输入 进 神经 
网 络 时 ， 只 有 关键 部 分 神经 元 才能 够 处 于 激活 状态 ， 这 就 是 稀疏 表征 C Sparse 
Representations ) pa, 

我 们 已 经 讨论 过 Ll 范 数 如 何 致 使 参数 稀疏 化 ， 这 就 意味 着 大 多 数 参数 都 为 零 或 接近 于 
零 ， 而 表征 稀 玻 化 描述 的 其 实 就 是 隐藏 层 的 输出 大 多 数 为 零 或 接近 零 。 为 了 简明 地 阐述 这 些 
区 别 我 们 以 一 个 线性 回归 为 例 ， 如 式 (4.15) 所 示 ， 是 一 个 参数 稀疏 化 的 线性 回归 模型 ， 而 
3X (4.16) 是 使 用 稀 芷 表征 的 线性 回归 。 





2 
18 40 0 -2 0 0 3 
5 00-1 0 3 0 B 
5 | =|05 0 0 о 0 : 
-9 10 0 -1 0 -4 p Tod 
-3 100 0 —5 0 i 
yc Rm AcRmxn eR" 
一 14 人 
1 4 2 3 = D 3 б 
1 =|-1 5 4 2 -3 -2 
2 Jum 1v 294,53 23 i 64.16) 
23 -5 4 -2 2 -5 -1l n 
yc Rm BeRmn hem 


UAR AREE IE E; GE WIE, (METH Wu, “MES RL) 有 些 区 别 ， 但 
幸运 的 是 它们 都 使 用 相同 的 机 理 来 实现 。 如 式 〈4.17) 所 示 ， 表 征 范 数 惩罚 也 是 通过 在 代价 
函数 中 添加 一 项 表征 惩罚 项 2(D 来 实现 表征 稀 朴 化 。 





Jg Q9) = Jg Q0) + (h) (4.17) 
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其 中 ww 控制 着 惩罚 项 的 惩罚 力度 ， 如 果 w= 0， 则 相当 于 没有 任何 惩罚 ，w 越 大 ， 惩 罚 力 
度 越 大 。 
就 如 同 在 参数 中 使 用 LI1 惩罚 ,通过 限制 参数 的 总 数值 来 诱 使 参数 稀 朴 化 一 样 。 在 表征 惩 


并 不 是 唯一 诱导 稀疏 表征 的 方法 ， 其 中 KL 散 度 (KL divergence) 151, КАНЯ (Relative 
Entropy) 也 是 一 种 十 分 常用 的 方法 ， 有 兴趣 的 读者 可 以 自行 查阅 相关 资料 , 这 里 就 不 再 介绍 。 


45 mf 


目前 为 止 ， 我 们 针对 过 拟 合 现象 所 做 的 正则 化 措施 总 结 起 来 有 两 点 : 一 是 限制 模型 的 能 
力 ， 就 如 同 “ 孤 已 天 下 无 敌 〈 训 练 错 误 率 很 低 ) ， 让 你 双手 又 如 何 〈 参 数 ， 表 征 惩 罚 ) ”。 
二 是 不 断 地 加 入 噪声 ， 给 自己 增加 麻烦 ， 就 如 同 “ 放 一 碗 水 在 头 项 扎 马 步 ， 穿 着 加 沙 的 背心 
去 奔跑 ， 最 终 目 的 是 使 自己 更 强壮 ”。 而 在 本 小 节 中 ， 我 们 介绍 的 这 种 正则 化 方法 就 非常 简 
单 了 ， 那 就 是 “ 当 个 懒汉 早 些 停 下 来 ”。 这 似乎 和 我 们 的 哲学 意境 不 太 相 符 ， 在 我 们 的 思想 
中 ， 我 们 接受 的 传统 策 陶 总 是 这 样 : “弟子 勤奋 看 书 ， 师 傅 问 弟子 懂 否 ? 弟子 挠 头 羞愧 道 不 
知 。 师 傅 轻 抢 长 须 道 ， 再 看 。 几 日 之 后 ， 再 问 弟子 懂 否 ? 弟子 颤 惊 道 ， 徒 儿 依旧 愚昧 。 师 傅 
小 叹 ， 再 看 ……” 我 们 的 哲学 意境 总 是 让 我 们 在 重复 中 自我 醒悟 ， 发 觉 渺 茫 的 慧 根 。 但 本 节 
介绍 的 深度 学 习 正则 化 策略 却 恰恰 相反 ， 我 们 将 学 习 如 何 适可而止 ， 我 们 不 允许 算法 重复 地 
学 习 太 多 次 。 

基于 梯度 下 降 的 深度 学 习 算法 都 存在 一 个 训练 周期 的 问题 ， 训 练 的 次 数 越 多 ， 训 练 错 误 
率 就 越 低 。 由 于 我 们 真正 目的 是 降低 测试 错误 率 ， 因 此 我 们 期 望 验证 错误 率 也 与 训练 错误 率 
有 相似 的 曲线 。 但 期 望 总 是 事与愿违 ， 如 图 4-2 所 示 ， 真 实 环境 中 的 验证 错误 率 并 没有 随 着 
训练 次 数 的 增多 而 减少 ， 而 是 形成 了 一 种 “U 型 ”曲线 ， 验 证 错误 率先 减 小 后 上 升 。 那 很 自 
然 地 ， 我 们 就 期 望 能 在 验证 错误 率 的 最 低 点 (或 最 低 点 附近 ) 停止 训练 算法 ， 这 就 是 所 谓 的 
早 停 (Early Stopping) 09。 


学 习 曲 绪 


B P W x S F * W 





0 50 100 150 200 250 
训练 周期 


图 4-2 ”训练 错误 率 、 验 证 错误 率 与 训练 周期 U 型 曲线 


为 了 找到 最 佳 的 验证 错误 率 ， 我 们 会 保存 一 份 最 佳 的 模型 参数 ， 每 经 过 一 定 的 训练 周期 ， 
我 们 就 将 当前 的 验证 错误 率 与 最 佳 错误 率 进行 比较 。 如 果 当 前 验证 错误 率 低 于 历史 最 佳 错误 
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率 ， 我 们 就 将 当前 验证 错误 率 设置 为 最 佳 验证 错误 率 ， 然 后 将 当前 模型 参数 拷贝 到 最 佳 模型 
参数 中 。 当 训练 次 数 足 够 多 时 ， 我 们 就 返回 最 佳 模型 参数 。 如 算法 4.1 所 示 ， 就 详细 地 描述 
了 这 一 过 程 。 
算法 4.1 早 停 算 法 用 于 确定 最 佳 模型 参数 以 及 最 佳 训练 次 数 : 
符号 说 明 : 
n 表示 评估 错误 率 的 训练 间隔 数 ; p 表示 “耐心 值 ”, 若 进 行 p 次 训练 后 仍然 没有 获得 更 好 的 验证 错误 率 ， 
则 中 断 训 练 ，W 表 示 初 始 化 参数 。 
训练 步骤 
w= W; i-0; j=0; v=0; wtemp-w; i_temp=i; 
While( j <р) 
{ 
训练 n 步 算法 后 更 新 参数 w_tem; 


і temp=i temp +n; 





V temp = calValidationError( w ) ; 
if(v temp < v) 
1 
j=0; w=w temp; i-i temp;v-v temp; 
} else { 
ј=ј+1 
} 
j 
Return w 最 佳 参数 ，i 最 佳 训练 次 数 。 


° 早 停 算法 作为 一 种 超 参 数 


我 们 略 显 “玄幻 ”地 解释 了 早 停 算法 的 好 处 ， 所 谓 “ 点 到 为 止 ” 似 乎 有 些 牵 强 。 换 个 角 
度 ， 可 以 将 早 停 算 法 看 作 是 一 种 高 效 的 超 参 数 选择 。 在 这 种 观点 中 ， 训 练 次 数 可 看 作 是 一 种 
超 参 数 。 不 知道 你 是 否 还 记得 超 参数 的 概念 ， 如 果 已 经 模糊 了 ， 最 好 回 到 第 2 章 再 温习 一 下 。 
选择 超 参数 其 实 就 是 去 寻找 过 拟 合 与 从 拟 合 的 最 佳 折 中 点 ， 权 重 衰减 中 惩罚 因子 的 取 值 ， 梯 
度 下 降 中 步 长 的 选择 都 被 称 为 超 参数 。 同 样 地 ， 我 们 通过 图 4-3 可 知 ， 训 练 次 数 也 存在 过 拟 
合 与 从 拟 合 的 U 型 曲线 ， 因 此 通过 训练 次 数 去 限制 模型 的 能 力也 就 变 成 一 种 正则 化 措施 了 。 

通常 来 说 ， 超 参数 的 选择 是 一 个 非常 耗 时 、 耗 力 的 过 程 ， 但 早 停 算 法 却 非常 高 效 。 在 单 
个 训练 过 程 中 ， 我 们 仅仅 拥有 “训练 次 数 ” 这 一 超 参 数 ， 并 且 这 种 超 参 数 是 在 训练 过 程 中 通 
过 对 验证 错误 率 的 比较 自动 选择 出 来 的 。 我 们 需要 付出 的 只 是 保存 最 佳 参数 所 需 的 额外 内 存 
空间， 但 这 种 代价 通常 又 是 那么 的 微不足道 。 在 实际 训练 中 ， 最 佳 参数 的 更 迭 也 并 不 频繁 ， 
因此 对 于 总 的 训练 时 间 所 占 的 比重 也 就 可 以 忽略 了 。 

早 停 是 一 种 非常 “低调 ”的 正则 化 措施 中 ， 它 几乎 不 改变 训练 过 程 、 目 标 函 数 或 可 选择 
的 参数 值 ， 这 也 就 意味 着 它 在 学 习 过 程 中 几乎 是 无 损失 的 。 和 权重 衰减 相 比 ， 不 需要 像 权重 
衰减 那样 小 心地 设置 惩罚 因子 ， 因 为 太 大 或 太 小 的 惩罚 都 会 致使 模型 无 法 训练 。 早 停 算法 既 
可 单独 使 用 也 可 以 联合 其 他 的 正则 化 策略 使 用 ， 并 且 也 减少 了 没 必 要 的 训练 过 程 ， 节 约 了 有 
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效 训练 时 间 。 

说 得 更 简单 些 , 早 停 算法 其 实 就 是 用 一 堆 验 证 数据 作为 监视 器 , 当 学 习 模 型 快要 变 成 “ 书 
果子 ”时 给 予 “ 当 头 棒 喝 ”， 但 这 也 引出 一 个 不 大 不 小 的 问题 ， 我 们 需要 划分 出 一 部 分 训练 
数据 作为 监视 器 。 也 许 读 者 并 没有 什么 感触 ， 觉 得 仅仅 只 是 减少 了 点 训练 数据 ， 并 没有 关系 。 
但 其 实数 据 在 机 器 学 习 中 是 一 个 关键 性 问题 ， 回 看 近 几 年 机 器 学 习 的 大 热 ， 并 不 是 因为 发 现 
了 多 人 么 厉害 的 学 习 算 法 ， 根 本 原因 有 两 个 : 一 是 硬件 技术 更 强大 ， 训 练 速度 更 快 ， 二 是 大 数 
据 的 来 临 ， 我 们 拥有 了 令 人 苹 幕 的 数据 量 。 当 然 ， 如 果 你 是 一 个 “土豪 ”， 拥 有 足够 多 的 数 
据 ， 那 划分 一 部 分 数据 也 没什么 影响 。 但 如 果 你 是 参加 某 项 竞赛 ， 又 或 是 使 用 基准 数据 集 测 
试 算法 性 能 ， 数 据 就 会 变 得 异常 的 宝贵 ， 你 比 别人 多 利用 一 点 数据 也 许 你 就 可 以 摘 得 桂冠 了 。 

为 了 最 优 地 利用 好 数据 ， 我 们 通常 将 早 停 的 训练 过 程 分 为 两 个 阶段 :第 一 阶段 如 上 文 所 
描述 的 那样 划分 训练 集 与 验证 集 ， 使 用 验证 集 监 控 训 练 ， 适 当 的 时 候 就 停止 训练 ， 第 二 阶段 
我 们 就 利用 所 有 的 训练 数据 再 次 训练 模型 。 第 二 阶段 如 何 利用 所 有 数据 训练 呢 ? 再 回 看 算法 
4.1 的 描述 ,应 该 注意 到 我 们 最 终 返 回 的 是 最 佳 模 型 参数 以 及 最 佳 训练 次 数 ， 那 我 们 就 围绕 着 
这 两 个 返回 资源 ， 提 出 两 种 基本 策略 作为 参考 。 


。 再 训练 所 有 数据 


第 一 种 策略 如 算法 4.2 所 示 ， 是 再 次 初始 化 模型 ， 然 后 使 用 所 有 的 训练 数据 再 训练 。 在 
第 一 个 训练 阶段 中 ， 我 们 获取 了 最 佳 的 训练 次 数 ， 那 在 第 二 个 阶段 中 我 们 就 使 用 所 有 训练 数 
据 ， 训 练 和 上 一 阶段 最 佳 训练 次 数 相同 的 训练 量 。 但 这 种 策略 有 些小 瑕 辣 ， 例 如 ， 虽 然 在 理 
论 上 数据 越 多 ， 训 练 的 泛 化 性 能 会 越 好 ， 但 我 们 并 不 能 保证 在 第 二 轮训 练 中 就 会 获得 更 好 的 
泛 化 能 力 。 





算法 4.2 使 用 早 停 算法 确定 最 佳 训练 次 数 ， 然 后 使 用 所 有 训练 数据 再 训练 


LA 和 JP 分 别 表示 训练 数据 以 及 训练 数据 标记 ; 

2. 将 min 和 Ji 划分 成 ssemin， nid gg brain. Jaid); 

3. 使 用 Cekmin，)abtmi) 作 为 训练 数据 ，CKaia，)yad) 作 为 验证 数据 ， 运 行 算法 4.1 所 示 的 早 停 算 法 ， 获 取 最 
佳 训 练 次 数 i; 

4. 再 次 随机 初始 化 模型 参数 w. 

5. 使 用 (X""， 沪 下) 作为 训练 数据 训练 i 次 。 





另 一 种 策略 ， 如 算法 43 所 示 ， 就 是 利用 最 佳 参数 ， 然 后 在 其 基础 上 使 用 所 有 训练 数据 
持续 地 训练 。 在 该 策略 的 第 二 阶段 中 ， 我 们 监控 在 验证 数据 集 上 的 平均 代价 函数 ， 我 们 会 持 
续 地 训练 直到 错误 率 降低 到 一 个 满意 的 值 后 再 中 断 训练 。 这 种 策略 避免 了 从 零 开始 再 训练 网 
络 所 产生 的 额外 训练 时 间 ， 但 也 存在 着 一 些 问题 ， 由 于 我 们 并 不 能 保证 学 习 模 型 的 错误 率 可 
以 降低 到 期 望 的 值 ， 那 我 们 也 就 无 法 保证 该 算法 能 够 中 断 。 


算法 4.3 使 用 早 停 算 法 确定 过 度 拟 合 的 开始 区 域 
1 下 加 和 ym" 分 别 表 示 训练 数据 以 及 训练 数据 标记 ; 
2.46 A rin A RC, XT AI, ria. 





34M, yy IRE, OM, EERE, IAT EK 4.1 所 示 的 早 停 算 法 ， 获 取 当 
前 最 佳 参数 w; 
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4. 计 算 当 前 代价 函数 值 =», х=, y mmy. 


5. while(J(w, X= y meon) > e) 


t 使 用 CY"™*，ym™") 作 为 训练 数据 训练 学 习 模 型 ， } 





4.6 Dropout 


Dropoutto 是 深度 学 习 中 一 种 计算 廉价 并 且 能 力 强 大 的 正则 化 模型 ， 其 思想 主要 来 源 于 集 
成 学 习 中 的 Bagging (Short for Bootstrap Aggregating) ns 方 法。 为 了 方便 理解 ,我们 接 下 来 先 
简单 地 介绍 下 集成 学 习 (Ensemble Learning) 091。 


4.6.1 个 体 与 集成 


集成 学 习 通过 构建 并 结合 多 个 学 习 器 来 完成 学 习 任务 ， 换 而 言 之 ， 就 是 我 们 所 谓 的 “ 集 
体 主义 ”， 通 常 先 训 练 一 组 个 体 学 习 器 Cindividual learner) ， 然 后 再 用 某 种 策略 将 它们 结合 
起 来 。 个体 学 习 器 可 以 相同 也 可 以 不 同 ， 如 果 个 体 学 习 器 相同 ， 集 成 就 称 为 是 同 质 的 
(homogeneous) ， 同 质 集成 中 的 个 体 学 习 器 就 称 为 基 学 习 器 (base learner) ， 如 神经 网 络 就 
是 典型 的 神经 元 集成 起 来 的 ， 如 果 个 体 学 习 器 不 相同 ， 那 我 们 的 集成 就 称 为 是 异 质 的 
Cheterogeneous) ， 异 质 集成 的 个 体 学 习 器 由 不 同 的 学 习 算法 生成 ， 而 此 时 的 个 体 学 习 器 就 
不 被 称 为 基 学 习 器 ， 而 称 为 组 件 学 习 器 (component learner) 。 

其 实 同 质 集成 与 神经 网 络 在 最 终结 构 上 是 一 样 的， 之 所 以 把 神经 网 络 和 集成 学 习 分 开 来 
看 待 是 其 组 织 方式 的 不 同 。 集 成 学 习 是 一 种 “ 自 底 向 上 ”的 构建 方式 ， 我 们 先 要 获得 学 习 器 ， 
然后 再 关注 如 何 将 其 组 织 起 来 形成 一 个 整体 。 而 神经 网 络 通常 是 一 种 “ 自 顶 向 下 ”的 构建 方 
式 ， 我 们 先 将 各 学 习 器 构建 起 来 ， 再 关注 如 何 学 习 调整 结构 内 的 每 个 学 习 器 。 

集成 学 习 最 重要 的 核心 思想 在 于 : 集体 比 个 体 好 。 那 集体 赁 什么 就 比 个 体 好 呢 ? 要 回答 
这 个 问题 ， 我 们 需要 再 次 谈 谈 机 器 学 习 的 两 个 核心 问题 ， 欠 拟 合 与 过 拟 合 问题 。 对 应 到 集成 
学 习 领 域 也 有 两 个 主要 的 应 对 措施 ， 那 就 是 Bagging 思想 与 Boosting 思想 。 

从 拟 合 是 因为 模型 能 力 不 足 引起 的 ， 再 说 得 直观 些 就 是 我 们 的 学 习 器 只 能 学 习 到 数据 的 
-部 分 特征 ， 这 些 特征 不 足以 解释 所 有 的 数据 特性 。 那 如 何 解决 呢 ? 比如 进行 人 脸 识别 任务 ， 
但 我 们 训练 的 学 习 器 的 能 力 有 限 ， 只 能 识别 局 部 特征 ， 比 如 只 能 识别 鼻子 。 那 很 简单 ， 我 们 
让 接 下 来 的 学 习 器 识别 耳朵 ， 再 让 下 一 个 学 习 器 识别 眼睛 ， 那 这 样 集成 出 来 的 学 习 器 就 可 以 
很 好 地 识别 人 脸 了 。 这 种 “ 弱 弱 联合 ” 变 强 的 方式 在 集成 学 习 中 就 称 为 BoostingP9 。 

同样 地 ， 过 拟 合 问题 是 因为 模型 能 力 太 强 所 致 ， 更 直观 些 就 是 我 们 的 学 习 器 不 仅 能 学 习 
到 数据 的 特征 ， 还 能 学 习 到 数据 的 噪声 特征 。 这 些 特征 足以 解释 所 有 的 训练 数据 ， 但 却 严重 
影响 了 测试 数据 。 就 比如 我 们 进行 人 脸 识别 ， 学 习 器 不 仅 学 习 到 眼睛 、 鼻 子 、 耳 杀 等 人 脸 特 
征 ， 还 学 习 到 了 训练 数据 中 人 的 衣服 、 发 型 、 甚 至 是 浴 斑 等 无 用 特征 。 虽 然 训练 结果 很 好 ， 
但 在 测试 数据 中 却 不 一 定 有 这 些 特 征 ， 那 测试 结果 必然 糟糕 。 那 我 们 如 何 使 用 集成 方式 去 制 
约 这 种 连 “人 脸 汰 班 ” 都 能 学 习 到 的 能 力 呢 ? 那 也 很 简单 ， 比 如 第 一 个 学 习 器 除了 学 习 到 人 
脸 特 征 外 还 能 学 习 到 “衣服 特征 ”, 下 一 个 学 习 器 还 能 学 习 除 了 人 脸 特 征 之 外 的 “发 型 特征 ”， 
再 下 一 个 学 习 器 还 能 学 习 “ 稚 斑 特 征 ”。 我 们 将 这 些 学 习 器 组 合 起 来 形成 “ 强 强制 约 ” 的 情 
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况 ， 这 就 是 集成 学 习 中 Bagging 的 思想 。 

无 论 是 “ 弱 弱 联合 ”的 Boosting， 还 是 “ 强 强 制约 ”的 Bagging 都 有 一 个 核心 ， 那 就 是 
学 习 器 应 该 尽 可 能 的 多 样 。 这 里 所 说 的 “多 样 性 ”， 不 仅 指 集成 学 习 器 的 数量 越 多 越 好 ， 更 
重要 的 是 学 习 器 之 间 应 该 尽 可 能 的 “不 同 ”， 学 习 器 的 不 同 其 实 就 是 学 习 到 数据 特征 的 不 同 。 
如 果 学 习 器 相似 ， 那 么 获取 到 的 特征 也 就 相似 ，“ 弱 弱 联 合 ”依然 只 是 “ 臭 皮 折 ”的 愚蠢 ， 
而 “ 强 强 组 合 ” 也 只 是 加 固 其 “ 书 呆 子 ” 的 偏执 。 

如 何 才能 获取 学 习 器 的 多 样 性 呢 ? 其 实 只 有 一 个 方式 ， 那 就 是 数据 。 从 行为 心理 学 的 观 
点 出 发 ， 所 有 人 的 思想 行为 都 是 一 样 的 ， 人 与 人 之 所 以 看 似 不 同 ， 其 实 是 接触 到 的 生长 环境 
不 同 造成 的 。 当 然 ， 这 种 观点 对 于 解释 人 而 言 肯定 是 不 足 的， 但 对 于 解释 机 器 学 习 却 很 友好 。 
如 果 我 们 使 用 相同 的 数据 ， 相 同 的 学 习 算 法 ， 那 我 们 得 到 的 学 习 器 也 就 基本 相同 。 对 于 同 质 
集成 ， 如 果 我 们 想 要 获取 不 同 的 学 习 器 ， 那 我 们 就 应 该 给 予 其 不 同 的 数据 进行 训练 。 

对 于 Bagging 而 言 ， 想 要 获取 多 样 性 的 学 习 器 ， 我 们 就 通过 从 训练 数据 中 随机 采样 一 定 
的 子 数据 集 进 行 训练 。 训 练 得 到 学 习 器 后 ， 再 将 数据 放 回 原始 训练 集中 进行 下 一 次 随机 采样 
来 训练 下 一 个 学 习 器 。 如 此 重复 进行 ， 直 到 学 习 器 的 数目 达到 预 设 数量 为 止 ， 这 种 方法 也 叫 
自助 采样 法 (Bootstrap Sampling) 。 这 种 方法 的 关键 点 在 于 采样 率 的 选择 ， 如 果 采 样 率 过 高 ， 
采样 数据 集 的 相似 性 也 就 过 高 ， 学 习 器 的 “不 同 ” 就 很 难保 证 ， 如 果 采 样 率 过 低 ， 那 训练 数 
据 不 足 ， 个 体 学 习 器 的 性 能 就 较 差 。 在 实践 经 验 中 ， 常 采用 63.2% 的 采样 率 ， 但 这 并 不 是 一 
条 铁 律 ， 最 佳 的 采样 率 还 需要 根据 具体 数据 ， 具 体 问题 进行 实验 。 

对 于 Boosting 而 言 ， 我 们 首先 会 使 用 所 有 训练 数据 去 训练 第 一 个 学 习 器 ， 但 该 学 习 器 只 
会 对 某 些 数据 识别 较 好 ， 对 于 另 一 些 数据 识别 较 差 〈 如 果 都 好 ， 就 是 强 分 类 器 了 ， 不 需要 集 
成 了 ) 。 接 下 来 我 们 就 使 用 下 一 个 学 习 器 ， 着 重地 学 习 前 一 个 学 习 器 识别 较 差 的 数据 ， 而 忽 
略 之 前 识别 较 好 的 数据 。 如 此 重复 进行 ， 当 学 习 器 的 数目 达到 预 设 数量 后 停止 学 习 。 

总 之 ， 依 靠 “ 好 而 不 同 ” 的 个 体 ， 我 们 可 以 得 到 强 而 有 力 的 集体 。 有 了 对 集成 学 习 最 粗 
浅 的 认识 后 ， 接 下 来 就 开始 介绍 本 节 的 主角 一 一 Dropout。 


4.6.2 Dropout 


如 何 将 集成 学 习 与 神经 网 络 结合 起 来 呢 ? 一 个 很 自然 的 想法 就 是 将 神经 网 络 当 作 基 学 习 
器 〈 个 体 学 习 器 ) 来 训练 ， 然 后 再 将 每 个 神经 网 络 集成 起 来 ， 这 种 方法 最 大 的 问题 在 于 需要 
极 大 的 训练 时 间 及 足够 的 内 存 消耗 。 神 经 网 络 最 让 人 闻风丧胆 的 地 方 就 是 其 可 怕 的 训练 时 间 ， 
然后 我 们 还 想 在 此 基础 上 训练 多 个 神经 网 络 ， 想 想 就 可 怕 。 当 然 ， 这 确实 也 是 一 种 好 方法 ， 
如 果 条 件 允 许 ， 集 成 5 到 10 个 神经 网 络 ， 其 效果 还 是 非常 好 的 人 3。 

有 没有 又 可 以 集成 多 个 神经 网 络 ， 又 可 以 节约 训练 时 间 的 方法 呢 ? 在 上 文中 ， 我 们 将 神 
经 网 络 当 作 基 学 习 器 来 看 待 ， 而 现在 我 们 需要 换 一 个 角度 ， 我 们 将 神经 网 络 当 作 最 终 集成 起 
来 的 结果 进行 思考 。 但 又 不 太一 样 ， 你 可 能 很 容易 会 想到 ， 我 们 会 将 神经 元 当 作 个 体 学 习 器 
进行 学 习 。 但 如 果 那 样 ， 我 们 其 实 又 回 到 传统 的 同 质 集成 循环 中 去 了 。 如 图 4-3 (a) 中 的 神 
经 网 络 可 以 分 解 成 16 种 不 同 的 子 网 络 ， 如 图 4-3 Cb) 所 示 ， 而 Dropout 所 做 的 就 是 将 神经 网 
络 中 的 弱 子 神经 网 络 集成 起 来 。 
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(b) 集 成 子 网 络 
图 4-3 神经 网 络 的 结构 分 解 示意 图 

在 Bagging 的 思想 中 ， 我 们 想 要 获得 不 同 的 学 习 器 ， 需 要 从 训练 数据 中 采样 出 不 同 的 训 
练 集 。 然 后 通过 训练 数据 集 的 不 同 ， 从 而 期 望 获得 不 同 “ 观 点 ”的 学 习 器 。 那 么 Dropout 如 
何 构造 不 同 的 弱 神经 网 络 进行 训练 呢 ? 

其 实 非常 简单 ， 我 们 会 在 训练 阶段 给 每 个 神经 元 独立 地 设置 一 个 二 项 分 布 的 “神经 元 激 
活 ” 概 率 ， 若 该 值 为 0， 则 表明 当前 神经 元 抑制 ， 如 果 该 值 为 1， 则 表明 当前 神经 元 可 用 。 如 
图 4-4 (b) 所 示 ， 为 激活 概率 是 0.5 IN, Dropout 所 构造 出 弱 神 经 网 络 的 结构 ， 该 弱 神经 网 络 
的 神经 元 数量 及 参数 数目 (连接 权重 数量 ) 都 被 极 大 地 限制 了 ， 而 图 4-4 Ca) 为 标准 的 神经 
网 络 结构 。 








(a) 标准 神经 网 络 结构 (b) 使 用 Dropout 构造 的 弱 ( 瘦 ) 神经 网 络 
图 44 Dropout 神经 网 络 模型 


Dropout 分 为 训练 阶段 与 测试 阶段 (执行 阶段 ，， 训 练 阶段 相 比 于 传统 的 前 馈 神经 网 络 ， 
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只 是 多 了 一 个 神经 元 采样 过 程 ,而 训练 则 采取 随机 梯度 下 降 或 最 小 批量 梯度 下 降 的 方式 进行 。 
其 实 就 是 随机 激活 一 定数 量 的 神经 元 ， 然 后 执行 一 条 或 一 小 批 数据 ， 对 激活 的 神经 元 进行 误 
差 反 向 传播 修正 权重 ， 然 后 再 次 随机 激活 神经 元 训练 网 络 。 在 测试 或 执行 阶段 ， 将 神经 元 采 
样 过 程 移 除 ， 退 化 为 传统 的 神经 网 络 进行 测试 。 

Dropout 可 以 看 作 是 集成 学 习 中 Bagging 的 一 种 形式 , 通过 神经 元 采样 构造 不 同 的 网 络 结 
构 ， 然 后 通过 采样 出 不 同 的 数据 来 训练 不 同 的 弱 神 经 网 络 。 但 这 其 中 和 Bagging 还 有 一 个 非 
常 不 一 样 的 地 方 , 那 就 是 神经 元 共享 。Dropout 还 有 一 个 重要 的 灵感 是 来 源 于 性 别 在 生物 进化 
中 所 承担 的 角色 ， 为 了 更 好 地 解释 这 一 点 ， 我 们 现在 需要 介绍 一 些 生物 学 知识 。 

有 性 生殖 是 将 父母 中 各 自 一 半 的 基因 ， 以 及 一 些 随机 的 变异 混合 在 一 起 ， 然 后 产生 后 代 。 
而 无 性 生殖 的 后 代 是 复制 母体 中 全 部 的 基因 ， 然 后 掺 入 一 点 点 变异 。 直 观 地 看 ， 似 乎 无 性 生 
殖 对 于 优化 个 体 的 适合 度 (fitness) 会 更 好 些 ， 因 为 母体 已 经 组 合 好 一 些 优良 的 基因 ， 然 后 直 
接地 复制 给 后 代 ， 后 代 就 具有 更 良好 的 稳定 性 。 另 一 方面 ， 有 性 生殖 破坏 了 原生 物体 基因 间 
的 相互 适应 性 ， 降 低 了 生物 体 已 经 进化 出 的 环境 适应 能 力 。 总 而 言 之 ， 无 性 生殖 的 后 代 变异 
更 少 ， 个 体 更 稳定 ， 有 性 生殖 变异 较 大 ， 个 体 不 够 稳定 。 然 而 ， 有 性 生殖 却 是 大 多 数 高 级 生 
物体 的 进化 方式 ， 所 谓 存在 即 合理 ， 那 么 有 性 生殖 又 会 有 什么 优越 性 呢 ? 

原来 在 长 期 的 生物 进化 中 ， 自 然 选 择 的 评价 标准 可 能 不 只 是 个 体 的 适合 度 ， 更 需要 考虑 
基因 的 混合 能 力 。 这 种 能 力 使 得 一 组 基因 和 另 一 组 基因 组 合 起 来 能 够 很 好 地 工作 ， 使 基因 间 
的 组 合 更 具 健 壮 性 。 由 于 基因 不 能 总 是 依赖 父母 遗传 ， 其 被 迫 从 自身 中 学 习 获取 优点 ， 或 者 
和 其 他 的 基因 进行 合作 。 根 据 这 一 理论 ， 有 性 生殖 的 角色 不 仅仅 是 让 新 基因 在 种 群 中 传播 ， 
而 且 也 有 利于 降低 基因 间 相 互 适应 的 复杂 度 。 

同 理 ， 神 经 网 络 中 的 每 个 隐藏 单元 经 过 Dropout 训练 后 ， 它 也 必须 学 习 与 不 同 采样 的 神 
经 元 间 的 合作 ,这 使 得 神经 元 具有 更 强 的 健壮 性 ， 并且 驱使 神经 元 通过 自身 获取 到 有 用 特征 ， 
而 不 是 依赖 其 他 神经 元 去 纠正 自身 的 错误 。 在 Dropout 中 , 我 们 引入 了 一 个 神经 元 采样 概率 p 
超 参数 ， 在 默认 情况 下 该 值 设 置 为 0.5， 但 这 不 是 一 个 定量 ， 根 据 数据 和 网 络 的 不 同 ， 还 需要 
在 试验 中 反复 地 测试 。 

虽然 Dropout 算法 的 执行 过 程 非常 简单 ， 但 却 是 一 种 非常 高 效 的 深度 学 习 正则 化 措施 ， 
只 需要 在 原始 的 网 络 中 简单 地 添加 一 层 神经 元 激活 掩 码 就 可 能 使 网 络 性 能 得 到 大 幅 的 提升 。 
该 方法 是 目前 深度 学 习 领 域 最 常用 的 正则 化 措施 之 一 ， 我 们 花费 了 大 量 的 篇 幅 讲解 该 方法 ， 
希望 你 能 在 进入 本 章 的 编程 练习 前 充分 了 解 该 方法 的 思想 内 涵 。 

纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 编程 。 接 下 来 ， 我 们 就 进入 本 章 的 编程 练习 。 


47 ”深度 学 习 编码 实战 中 


本 章 的 练习 比较 简单 ， 权 重 衰减 正则 化 的 编码 我 们 已 经 放 在 了 第 3 章 ， 而 参数 共享 方法 
会 在 第 6 章 卷 积 网 络 中 重点 描述 ， 本 节 中 我 们 主要 完成 Dropout 正则 化 编码 即 可 。 随 着 学 习 
的 深入 ， 我 们 在 网 络 中 添加 的 内 容 会 越 来 越 多 ， 因 此 在 本 章节 的 练习 中 ， 我 们 需要 将 网 络 进 
ITR EHSA trainer, updater 和 model 三 个 模块 : trainer 负责 配置 训练 过 程 中 的 一 些 超 
参数 及 可 选项 ;updater 负责 计算 梯度 , 该 部 分 将 在 第 5 章 深度 学 习 优 化 章节 中 具体 介绍 ;model 
为 可 选 的 神经 网 络 , 如 DNN, CNN 和 КММ 等 。 He FORK, 打开 “第 4 章 练习 -神经 网 络 中 .ipynb” 
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文件 ， 进 入 本 章 的 练习 。 本 章 我 们 会 逐步 完成 以 下 操作 。 
° 编码 实现 Dropout 传播 ; 
° 445,48 Affine-ReLU-Dropout Z; 
° 编码 实现 Dropout 神经 网 络 ; 
. 解 耦 神经 网 络 ; 
° 正则 化 比较 实验 。 


首先 是 我 们 已 经 非常 熟悉 的 库 文件 导入 代码 ， 仅 仅 注意 本 章 的 练习 文件 存放 在 
“DLAction/classifiers/chapter4” 目 录 下 即 可 。 





库 文件 导入 代码 块 : 
# -*- coding: utf-8 -*- 





import time 

import numpy as np 

import matplotlib.pyplot as plt 

from classifiers.chapter4 import * 

from utils import * 

Yomatplotlib inline 

plt.rcParams[ 'figure.figsize' ] = ( 10.0, 8.0 ) 
plt.rcParams[ 'image.interpolation' ] = 'nearest' 
plt.rcParams[ 'image.cmap' ] = 'gray' 
Y%load_ext autoreload 


%autoreload 2 


defrel error( x, y ) : 
return np.max( np.abs( x — y ) / ( np.maximum( 1е-8, np.abs( x ) + np.abs( y ) )) ) 





数据 导入 代码 块 : 
# 载 入 预 处 理 后 的 数据 。 
data = get CIFARIO data( ) 
for k, v in data.iteritems( ): 
print '905: ' % k, v.shape 
数据 导入 运行 结果 : 
X val: (1000L, 3L, 32L, 32L) 
X train: (49000L, 3L, 32L, 321) 
X test: (1000L, 3L, 32L, 321) 
y val: (1000L.) 
y train: (49000L.) 
у test: (1000L.) 
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4.7.1 Dropout 传播 


由 于 Dropout 的 训练 阶段 和 测试 阶段 采取 不 一 样 的 传播 方式 ， 因 此 我 们 会 设置 “test” 以 


及 “train” 模 式 。 在 训练 模式 时 ， 我 们 会 使 用 单独 的 神经 元 激活 概率 P 生成 mask 掩 码 层 。 


该 


掩 码 层 中 为 “0” 的 位 置 表明 该 位 置 处 神经 元 处 于 抑制 状态 ， 为 “1” 的 位 置 表明 该 处 神经 元 


可 用 。 在 测试 阶段 ， 我 们 去 除 掩 码 操作 ， 直 接 返 回 输入 结果 即 可 。 
接 下 来 打开 “DLAction/ classifiers /chapter4/dropout layers.py” 文 件 ， 完 成 相应 任务 。 





dropout forward 函数 代码 块 : 





def dropout_forward( x, dropout param ) : 
执行 dropout 前 向 传播 过 程 。 
Inputs: 
- x: 输入 数据 
- dropout param: 字典 类 型 的 dropout 参数 ， 使 用 下 列 键 值 : 
- p: dropout 激活 参数 ， 每 个 神经 元 的 激活 概率 p. 
- mode: test 或 train'，train: 使 用 激活 概率 р 与 神经 元 进行 "and" 运 算 ; 
test: 去 除 激活 概率 p 仅仅 返回 输入 值 。 
- seed: 随机 数 生成 种 子 。 
Outputs: 
- out: 和 输入 数据 形状 相同 。 
- cache: 元 组 ( dropout_param, mask): 
训练 模式 : HES mask 用 于 激活 该 层 神经 元 ，“1” 为 激活 ，“0” 为 抑制 。 
测试 模式 ， 去 除 掩 码 操作 。 
p , mode = dropout param[ 'p' ] , dropout_param[ 'mode' ] 
if 'seed' in dropout param: 
np.random.seed( dropout param[ 'seed' ] ) 
mask = None 
out = None 
if mode = 'train': 
HEHEHE EEE EE HHH H HH HHH H HHHH H HHH RE 
# 任务 : 执行 训练 阶段 dropout 前 向 传播 。 # 
HEE EEE H H H H H H HH HHH HH H HHHH H HHH HERE 


HEH HHE H H HH H HH HH 
# 结束 编码 # 
THHHHHHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
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elif mode == 'test': 
THHHHHHHBHHBHHBHHBHHBHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 任务 : 执行 测试 阶段 dropout 前 向 传播 。 # 
HHHH: VHEHHBHHBHHHHHBHHHHHHHHHHHHHHHHHHHBHHHBHHSHHHHSHHHHE RE 











HBHHHBHHHHHHHBHHHHHBHHHHHBHHHHHHBHHEHHHHHHHHHHHBHHHHHHHBIR. 

# 结束 编码 # 

HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHBHHBRHE 
cache = (dropout param, mask ) 


out = out.astype( x.dtype, copy = False ) 








return out, cache 


完成 dropout. forward 函数 后 ， 执 行 下 列 代码 块 进行 检验 。 需 要 注意 的 是 ，Droponut 使 一 
部 分 神经 元 失 活 , 那么 该 层 神经 元 的 输出 均值 就 会 缩小 p 倍 。 例 如 我 们 输入 均值 为 10,p = 0.3， 
那 输出 的 均值 就 会 变 为 3。 这 在 零 均值 时 没有 影响 ， 但 如 果 我 们 的 数据 不 是 零 均 值 分 布 ， 那 
可 能 会 受到 影响 。 为 了 消除 这 种 影响 ， 我 们 使 用 mask=mask/p， 这 样 就 可 以 保证 输出 均值 和 
输入 均值 相同 ， 并 且 也 间接 放大 了 可 用 神经 元 的 “影响 力 ”。 而 现在 当 神 经 元 处 于 激活 状态 
时 ， 其 输出 值 会 被 放大 1/p 倍 。 


测试 dropout_forward 函数 代码 块 : 
from classifiers.chapter4.dropout_layers import * 
x = np.random.randn( 500, 500 ) + 10 
for p in [ 0.3, 0.6, 0.75 ] : 
out, = dropout_forward( x, í 'mode': 'train’, 'p': p } ) 
out test, _ = dropout forward( x, í 'mode': 'test’, 'p': p } ) 
print ' 测 试 概 率 p=' p 
print ' 均 值 输入 :xmean() 
print "训练 阶段 输出 均值 : ', out.mean( ) 
print 测试 阶段 输出 均值 : ', out_test.mean( ) 
print 训练 阶段 输出 为 0 的 平均 个 数 : ', (ош = 0).mean( ) 
print 测试 阶段 输出 为 0 的 平均 个 数 : ', (out. test = 0).mean( ) 








dropout_forward 函数 编码 正确 后 可 能 的 测试 结果 : 





测试 概率 p= 0.3 测试 概率 p= 0.6 测试 概率 p = 0.75 

均值 输入 : 10.0018991394 均值 输入 : 10.0018991394 均值 输入 : 10.0018991394 
训练 阶段 输出 均值 : 训练 阶段 输出 均值 : 训练 阶段 输出 均值 : 
9.99269850479 10.0121231455 9.99909975905 

测试 阶段 输出 均值 : 测试 阶段 输出 均值 : 测试 阶段 输出 均值 : 
10.0018991394 10.0018991394 10.0018991394 
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训练 阶段 输出 为 0 的 平均 个 数 : | 训练 阶段 输出 为 0 的 平均 个 数 : 训练 阶段 输出 为 0 的 平均 个 数 : 


0.70024 0.39934 0.25026 
测试 阶段 输出 为 0 的 平均 个 数 : | 测试 阶段 输出 为 0 的 平均 个 数 : 测试 阶段 输出 为 0 的 平均 个 数 : 
0.0 0.0 0.0 





° Dropout 反 向 传播 


编码 完成 Dropout 的 前 向 传播 后 , 接 下 来 我 们 实现 Dropout 的 反 向 传播 。 该 过 程 同样 会 分 
为 测试 和 训练 两 种 模式 。 在 测试 阶段 ， 仅 仅 返回 上 层 梯度 即 可 。 在 训练 阶段 ， 需 要 将 处 于 抑 
制 状态 神经 元 所 对 应 的 上 层 梯度 设置 为 0。 因 此 需要 用 到 前 向 传播 中 的 mask， 其 已 经 放 在 
cache 中 了 ， 直 接 取出 使 用 即 可 。 


dropout backward 函数 代码 块 : 
def dropout_backward( dout, cache ): 











dropout 反 向 传播 过 程 。 

Inputs: 

- dout 上 层 梯度 ， 形 状 和 其 输入 相同 。 

- cache: 前 向 传播 中 的 缓存 ( dropout_param, mask ). 

dropout_param, mask = cache 

mode = dropout param[ 'mode' ] 

dx =None 

if mode == 'train' : 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHE 
# 任务 : 实现 dropout 反 向 传播 。 # 
HARR HE HEHE HEHE HE HHHH HHHH HHH HHH HRH a a a HHH HHRHH HHHHHH 


HEHHEE HEHHEHE HEHEHEHEHE HEEE HEEE HEH H HE H E E H H H H H HAH HH Hhhh 
# 结束 编码 # 
RHHHHHHHHBHHHHHHHHBHHHHHHBHHHHHBHHHHHBHBHHHHHBHHHHHHHHBHHHHHER 
elif mode == 'test' : 
dx = dout 
retum dx 








完成 Dropout 反 向 传播 编码 后 , 使 用 下 列 代码 块 进行 梯度 检验 , 相对 误差 应 该 小 于 le-10。 
Dropout 反 向 传播 梯度 检验 代码 块 : 


from utils import * 








x = np.random.randn( 10, 10 )+ 10 
dout = np.random.randn( * x.shape ) 
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dropout param = í mode' 'train', 'p': 0.8, 'seed': 123 } 


out, cache = dropout_forward( x, dropout_param ) 

dx = dropout_backward( dout, cache ) 

dx_num = eval_numerical_gradient_array( lambda xx: dropout_forward( xx, dropout_param )[ 0 ], x, dout ) 

print 'dx 相对 误差 : ', rel. error( dx, dx num ) 

正确 编码 后 可 能 的 检验 结果 : | 
dx 相对 误差 : 5.44560766472e-11 | 

















47.2 #& Dropout 传播 层 


如 果 在 网 络 的 隐藏 层 中 使 用 了 Dropout 方法 ， 那 么 一 层 神经 网 络 就 可 以 分 解 成 三 个 处 理 
Gree: affine 传播 ，ReLU 传播 及 Dropout 传播 。 为 了 后 续 编码 便捷 ， 我 们 现在 把 这 三 个 阶段 
整合 在 一 起 。 接 下 来 打开 “DLAction/classifiers /chapter4/dropout_layers.py” 文 件 ， 完 成 完整 
的 Dropout 前 向 传播 ， 需 要 将 各 阶段 的 缓存 保存 在 cache 中 。 当 然 你 也 可 以 跳 过 该 节 的 编码 ， 
但 在 进行 下 一 小 节 的 Dropout 神经 网 络 编码 时 ， 你 需要 在 该 网 络 中 补 全 这 三 个 阶段 的 处 理 过 
程 。 


affine_relu_dropout_forward 函数 代码 块 : 
def affine_relu_dropout_forward( x, w, b, dropout_param ): 
组 合 affine_relu_dropout 前 向 传播 过 程 。 
Inputs: 
-x: 输入 数据 ， 其 形状 为 (N, d_1,.…, d_k) 的 numpy 数组 。 
- w: 权重 矩阵 ， 其 形状 为 ( D, M ) 的 numpy 数组 ，D 表示 输入 数据 维度 ，M 表示 输出 数据 维度 。 
可 以 将 D 看 成 输入 的 神经 元 个 数 ，M 看 成 输出 神经 元 个 数 。 
-b: 偏 置 向 量 ， 其 形状 为 ( M, ) 的 numpy 数组 。 
- dropout param: 字典 类 型 的 dropout 参数 ， 使 用 下 列 键 值 : 
-p: dropout 激活 参数 ， 每 个 神经 元 的 激活 概率 p。 
- mode: 'test'EX'train', train: 使 用 激活 概率 p 与 神经 元 进行 "and" 运 算 ; 
test: 去 除 激活 概率 p 仅仅 返回 输入 值 。 
-seed: 随机 数 生成 种 子 。 
Outputs: 
- out: 和 输入 数据 形状 相同 。 
- cache: 缓 存 包含 ( cache affine, cache_relu, cache dropout ), 
cache affine: 仿 射 前 向 传播 的 各 项 缓存 ; 
cache_relu: ReLU 前 向 传播 的 各 项 缓存 ; 
cache_dropout: dropout 前 向 传播 的 各 项 缓存 。 





mm 


out_dropout = None 





cache = None 
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THHHHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


# 任务 : 实现 affine_relu_dropout 神经 元 前 向 传播 。 # 
# YER: 需要 调用 affine forward 及 relu_forward 函数 ， # 
# 并 将 各 自 的 缓存 保存 在 cache 中 。 # 


THHHHHHHHHHBHHHHHBHHHHHHHHBHHHHHHHHBHHHHHHBHHHHHBHHHHHHHHHRHHHRHE 


THEHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHBHHBHHBHHBHRHHHHHHHHHHE 


# 结束 编码 # 
TEHHBBHHHHHHUHHUHHHHHBHHBHHBHHHHHDHHDHHHHHHUHHUHHHHBHHRHHRHIR 


return out. dropout, cache 








完成 Dropout 神经 元 前 向 传播 后 ， 接 下 来 我 们 完成 Dropout 神经 元 的 反 向 传播 ， 打 开 
“DLAction/ classifiers /chapter4/dropout_layers.py” 文件 的 affine relu dropout backward 函数 ， 
按 要 求 完成 相应 的 编码 任务 。 


affine_relu_dropout_backward 函数 代码 块 : 
def affine_relu_dropout_backward ( dout, cache ) : 
affine_relu_dropout 神经 元 的 反 向 传播 过 程 。 
Input: 
- дош: 形状 为 (N, M ) 的 上 层 梯度 。 
- cache: 缓存 ( cache_affine, cache relu, cache dropout )。 
Returns: 
- dx: 输入 数据 x 的 梯度 ， 其 形状 为 ( N, dl,…,d_k )。 
- dw: 权重 矩阵 w 的 梯度 ， 其 形状 为 (D, M )。 
- db: 偏 置 项 b 的 梯度 ， 其 形状 为 ( M, )。 
cache_affine, cache_relu, cache_dropout = cache 
dx, dw, db = None, None, None 
IHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHBHHRHHH E 
# 任务 : 实现 affine_relu_dropout 反 向 传播 。 # 
HHHHHBHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHBHHHHHNHHHE 


JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHHBHHHHE 


# 结束 编码 # 
HALE AEH HH Sa aaa aa a a uo usa 
return dx, dw, db 
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4.7.3 Dropout 神经 网 络 


接 下 来 ， 我 们 将 Dropout 功能 添加 到 第 3 章 中 的 深层 全 连接 神经 网 络 中 ， 打 开 
“DLAction/classifiers/chapter4/fe_netpy” 文 件 ， 完 成 相应 的 编码 任务 。 


° Dropout 神经 网 络 初始 化 


首先 是 比较 熟悉 的 权重 初始 化 环节 ， 我 们 仅仅 添加 了 Dropout 参数 ， 该 参数 为 0 时 ， 表 
示 不 使 用 Dropout 功能 ， 网 络 将 退回 原来 的 全 连接 网 络 ; 若 Dropout 不 为 0， 则 将 使 用 该 值 作 
为 激活 概率 进行 Dropout 传播 。 阅读 下 列 代码 块 ， 对 Dropout 神经 网 络 初始 化 ,确保 你 熟悉 且 





明白 这 些 内 容 。 





Dropout 神经 网 络 初始 化 代码 块 : 





def init (self, input dim = 3 * 32 * 32, hidden dims = [ 100,100 ], 
num classes = 10, dropout = 0, reg = 0.0, weight scale = 1e-2, seed = None): 

初始 化 全 连接 网 络 。 

Inputs: 

-input dim: 输入 维度 。 

-hidden dims: 隐藏 层 各 层 维 度 ， 如 [ 100, 100 ]. 

-num_classes: 分 类 数量 。 

- dropout: 如 果 dropout = 0， 表 示 不 使 用 dropout。 

-reg: 正 则 化 衰减 因子 。 

- weight_scale: 权 重 范围 ， 给 予 初始 化 权重 的 标准 差 。 

- seed: 使 用 seed 产生 相同 的 随机 数 。 





self.use_dropout = dropout > 0 
self.reg = reg 
selfnum layers = 1 + len( hidden dims ) 
self.params = { } 
layers dims = [ input dim ] + hidden_dims + [ num classes ] 
for i in xrange( self.num layers ): 
self.params[ 'W' + str( i + 1 ) ] weight scale * np.random.randn( 
layers dims[ і ], layers_dims[ i + 1 ] ) 
self.params[ 'b' + str( i + 1 ) ] = np.zeros( ( 1, layers_dims[ i+ 1 ] ) ) 
self.dropout_param = { } 
ifself£use dropout : 
self.dropout param = í 'mode' : 'train', 'p' : dropout } 
if seed is not None: 


self.dropout param[ 'seed' ] = seed 
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° = Dropout 神经 网 络 损失 函数 


Dropout 神经 网 络 的 损失 函数 也 与 之 前 的 全 连接 网 络 十 分 类 似 , 由 于 我 们 之 前 已 经 编写 了 
affine relu_dropout forward 函数 ， 该 处 代码 应 该 很 轻松 即 可 完成 。 

需要 注意 的 是 ， 我 们 的 网 络 目前 拥有 两 种 模式 ，Dropout 传播 及 无 Огорош 传播 ， 因 此 可 
能 需要 编写 如 下 的 条 件 语 句 。 





if self.use_dropout : 
Dropout 传播 


正常 传播 





别 忘 了 在 输出 层 我 们 还 需要 使 用 仿 射 传播 。 祝 你 好 运 ! 


Loss 函数 代码 块 : 
def loss( self, X, у = None ) : 

mode = 'test' if y is None else 'train' 

# 设置 执行 模式 。 

if self.dropout_param is not None: 

self.dropout param [ 'mode' ] = mode 
scores = None 
SEALER AEE HEE a HHHH HHH HH HHHH HH HHH HH HHH HHHH HH SSS Saa 


# 任务 : 执行 全 连接 网 络 的 前 馈 过 程 。 # 
# 计算 数据 的 分 类 得 分 ， 将 结果 保存 在 scores 中 。 # 
# СА Н] dropout 时 ， 需 要 使 用 self.dropout_param ЖТ dropout 前 馈 。 # 
# 例如 if self.use_dropout: dropout 传播 else: 正常 传播 # 


TIHHHHHHHBHHHHHHHHHHHHHHHBHHBHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHE 


THBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHHHHBE 


# 结束 编码 # 
GHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHRHHBHHRHHBHNHIE 
if mode == 'test': 


return scores 
loss, grads = 0.0, { } 
HHHHHHHHHHHHHHHHHHHHHBHHHHHBHBHHHHHHHHHHHHHHBHHHHHBHBHHHHHBNE 





# 任务 : 实现 全 连接 网 络 的 反 向 传播 。 # 
# 将 损失 值 存储 在 loss 中 ， 梯 度 值 存 储 在 grads 字典 中 ， # 
# 注意 网 络 需要 设置 两 种 模式 : 有 dropout #125 dropout, # 
# {ИШ if self.use_dropout: dropout (24%, else: 正常 传播 。 # 
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THEHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHEHE 








HHHH: HHHHHBHHBHHHHHBHHBHE НННННННННННННННННННННННННННННННЕ 
# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHE 








return loss, grads 








。 ”梯度 检验 
完成 上 述 任务 后 ， 我 们 使 用 下 列 代码 块 进行 梯度 检验 。 


Dropout 神经 网 络 梯度 检验 代码 块 : 
N, D, HI, H2, C = 2, 15, 20, 30, 10 
X = np.random.randn( N, D ) 
y = np.random.randint( C, size = ( N, ) ) 
for dropout in [ 0, 0.2, 0.5, 0.7 ] : 

print ' 检 验 dropout Ж =', dropout 

model = FullyConnectedNet( input dim = D, hidden dims = [ НІ, H2 ], 

num classes = C, weight scale = Se-2, dropout = dropout, seed = 13 ) 

loss, grads = model.loss( X, y ) 

print ' 初 始 化 loss: ', loss 

for name in sorted( grads ) : 

f= lambda : model.loss( X, y ) [0] 

grad num = eval numerical gradient( f, model.params[ name ], verbose = False, h = le-5 ) 
print %s 相对 误差 : %.2е' % (name, rel. error( grad num, grads[ name ] ) ) 








正确 编码 Dropout 神经 网 络 后 可 能 的 梯度 检验 结果 : 

检验 dropout 率 =0 检验 dropout 率 = 0.2 检验 dropout ¥ = 0.5 
初始 化 loss: 2.30679849759 初始 化 loss: 2.29542906388 初始 化 loss: 2.30729499497 
W1 相对 误差 : 4.79e-06 WI 相对 误差 : 3.04e-05 WI 相对 误差 : 1.16e-07 
W2 相对 误差 : 1.30e-07 W2 相对 误差 : 2.67e-09 W2 相对 误差 : 1.40e-06 
W3 相对 误差 : 6.44e-08 W3 相对 误差 : 6.48e-09 W3 相对 误差 : 9.09e-09 

bl 相对 误差 : 1.20e-08 bl 相对 误差 : 2.56e-08 bl 相对 误差 : 2.29e-09 

b2 相对 误差 : 1.65e-09 b2 相对 误差 : 1.10e-10 b2 相对 误差 : 2.56e-09 

b3 相对 误差 : 1.82e-10 b3 相对 误差 : 6.30e-11 b3 相对 误差 : 7.91e-11 





4.7.4 ” 解 看 训练 器 trainer 








在 本 书后 面 的 章节 中 , 我 们 还 将 学 习 到 很 多 不 同 的 神经 网 络 优化 策略 以 及 神经 网 络 模型 ， 
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为 了 今后 的 编程 方便 ， 我 们 需要 将 模块 进行 解 契 。 首 先 ， 我 们 解 硒 模 型 的 训练 过 程 ， 将 数据 
采样 、 衰 减 学 习 率 、 设 置 训练 周期 、 是 否 打印 中 间 结 果 等 内 容 封 装 到 trainer 类 中 。 接 下 来 打 
JF “DLAction/classifiers /chapter4/trainerpy” 文 件 ， 阅 读 相 关内 容 ， 确 保 自己 熟悉 整个 过 程 。 


° ”训练 器 初始 化 


trainer 类 在 初始 化 时 需要 接受 三 个 参数 : 训练 模型 、 数 据 及 一 些 可 选项 配置 。 可 选项 参 
数 包 括 更 新 规则 、 学 习 率 衰减 系数 、 批 量 数据 大 小 与 训练 周期 等 ， 更 详细 的 内 容 请 参考 下 列 
代码 。 





trainer 初始 化 代码 块 : 





def _init ( self, model, data, **kwargs ) : 
初始 化 训练 器 各 项 配置 。 
Wie SH: 
-model: 神经 网 络 模型 ， 如 : DNN, CNN, RNN 等 。 
- data: 数据 字典 ， 其 中 : 
'X train: 形状 为 (N_train， d_l,..., dk ) 的 训练 数据 。 
'X val: 形状 为 ( N_val，d_1, ..，d_k) 的 验证 数据 。 
'y_train': 形状 为 (N_train, ) 的 训练 数据 类 标 。 
'y_val': 形状 为 ( N_val, ) 的 验证 数据 类 标 。 
可 选 参数 : 
= update_rule: 更 新 规则 ， 其 存放 在 updater.py 文件 中 ， 默 认 选 项 为 'sgd'。 
- updater_config: 更 新 规则 所 对 应 的 超 参数 配置 ， 同 见 updater.py 文件 。 
-lr decay: 学 习 率 衰减 系数 。 
- batch_size: 批量 数据 大 小 。 
-num_epochs: 训练 周期 。 
-print every: 整数 型 ， 每 迭代 训练 print_every 次 模型 ， 打 印 一 次 中 间 结 果 。 
- verbose: 布尔 型 ， 是 否 在 训练 期 间 打 印 中 间 结 果 。 


self.model = model 

self.X_train = data[ 'X train' ] 

self.y_train = data[ 'y_train' ] 

sel.X val = data['X val'] 

self.y_val = data['y val'] 

# 弹出 可 选 参数 ， 进 行 相关 配置 。 

self.update rule = kwargs.pop( 'update гше", 'sgd') 





self.updater_config = kwargs.pop( 'updater config, { } ) 
Selflr decay = kwargs.pop( 'Ir_decay', 1.0) 
self.batch_size = kwargs.pop( 'batch_size', 100) 
self.num_epochs = kwargs.pop( 'num epochs', 10 ) 
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数 获取 当前 损失 值 以 及 梯度 ， 再 将 梯度 值 与 权重 传递 给 更 新 器 updater， 更 新 器 返 


self.print_every = kwargs.pop( 'print every', 10 ) 
self.verbose = kwargs.pop( 'verbose', True ) 
# 车 可 选 参数 错误 ， 抛 出 异常 。 
if len( kwargs ) > 0: 
extra =','join('"%s"' % k for k in kwargs.keys( ) ) 
raise ValueError( 'Unrecognized arguments %5' % extra ) 
# 确认 updater 中 含有 更 新 规则 。 
if not hasattr( updater, self.update rule ): 
raise ValueError( 'Invalid update rule "%s""' % self.update_rule ) 
selfupdate гше = getattr( updater, self.update rule ) 
# 初始 化 相关 变量 。 
self.epoch = 0 
self.best val acc = 0 
self.best params = { } 
self.loss history = [ ] 
selftrain acc history = [ ] 
self.val acc history = [ ] 
# 对 updater_config 中 的 参数 进行 深 拷贝 。 
self.updater_configs = { } 
for p in self.model.params : 
d = { k: v fork, v in self-updater_config.iteritems( ) } 
self.updater_configs[ p ] = d 


° $F RARE 


在 训练 器 进行 单 步 更 新 时 ， 会 根据 批量 大 小 进行 数据 采样 ， 然 后 调用 学 习 模型 











H| 








的 loss ef 
更 新 后 的 


权重 next_w， 最 后 trainer 将 其 替换 为 自身 权重 即 可 ， 请 参考 下 列 代码 。 单 步 更 新 属于 训练 器 
的 私有 行为 ， 因 此 外 界 无 法 调用 。 





trainer 单 步 更 新 代码 块 : 








def step( self ) : 


执行 单 步 梯度 更 新 。 

# 采样 批量 数据 。 

num train = self.X_train.shape[ 0] 

batch mask = np.random.choice( num train, self.batch size ) 
X batch = self.X train[ batch mask ] 

y batch = self.y train[ batch mask ] 

# 计算 损失 值 及 梯度 。 
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loss, grads = self.model.loss( X batch, y batch ) 
self.loss history.append( loss ) 
# 更 新 参数 。 
for p, w in self.model.params.iteritems( ) : 
dw = grads[ p ] 
config = self.updater configs[ p ] 
next w, next config = self.update rule( w, dw, config ) 


self.model.params[ p ] = next_w 





self.updater_configs[ p ] = next config 








。 ”模型 精度 检验 


模型 的 验证 部 分 相信 你 已 经 非常 熟悉 了 ， 我 们 将 该 部 分 内 容 封 装 在 了 
trainer.check_accuracy( ) 函 数 中 ， 直 接 使 用 即 可 。 


检验 训练 精度 代码 模块 : 
def check_accuracy( self, X, y, num samples = None, batch size = 100 ) : 
根据 提供 的 数据 检验 精度 。 若 数据 集 过 大 ， 可 进行 采样 测试 。 

Inputs: 

-X: 形 状 为 (N, d 1,..., d k ) 的 数据 。 

-Y: 形 状 为 (N, ) 的 数据 类 标 。 

-num_samples: 采 样 次 数 。 

- batch_size: 批 量 数据 大 小 。 

Returns: 

= асс: 测试 数据 正确 率 。 

# 对 数据 进行 采样 。 

N = X.shape[ 0 ] 

if num samples is not None and N > num samples : 
mask = np.random.choice( N, num samples ) 
N-num samples 
X = X[ mask] 
y = y[ mask ] 

# 计算 精度 。 

num batches = N / batch size 

if N % batch size != 0: 
num batches += 1 

y pred - [] 


for i in xrange( num batches ) : 





start = i * batch size 
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end = (i+ 1) * batch size 


scores = self.model.loss( X[ start : end ] ) 

y. pred.append( np.argmax( scores, axis = 1 ) ) 
y. pred = np.hstack( у pred ) 
асс = np.mean( y pred = y ) 


return acc 





。 模型 训练 


train() 函 数 模块 你 也 非常 熟悉 了 ， 这 里 我 们 只 是 把 全 连接 网 络 的 train() 函 数 移植 到 了 训练 
器 中 。 阅 读 下 列 函 数 代 码 块 ， 确 保 你 熟悉 并 了 解 整个 训练 流程 。 
train 函数 代码 模块 : 
def train( self ) : 


"m 


根据 配置 训练 模型 。 


"m 








num train — self.X train.shape[ 0 ] 
iterations per epoch = max( num train / self.batch size, 1 ) 
num iterations = self.num epochs * iterations рег epoch 
fort in xrange( num iterations ) : 
self. step( ) 
# 打印 损失 值 。 
if self.verbose and t % self.print_every 一 0: 
print (迭代 %d/%d) 损失 值 : %f % ( 
t+ 1, num iterations, self.loss history[ -1 ] ) 
# 更 新 学 习 率 。 
epoch end = ( t + 1) % iterations per epoch = 0 
if epoch_end : 
self.epoch += 1 
for k in self.updater_configs : 
self.updater configs[ k ][ leaming rate' ] * = self.Ir_decay 
# 在 训练 的 开始 、 末 尾 ， 每 一 轮训 练 周期 检验 模型 精度 。 
first it=(t==0) 
last_it = ( t == num iterations + 1 ) 
if first_it or last_it or epoch_end : 
train acc = self.check_accuracy( self.X_train, self.y_train, 
num_samples = 1000 ) 
val acc = self.check accuracy( self.X_val, self-y_val ) 


selftrain acc history.append( train acc ) 








self.val acc history.append( val acc ) 
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if self.verbose : 
print (周期 96d / %d) 训练 精度 : %f; 验证 精度 : %f % ( 
self.epoch, self.num epochs, train acc, val асс) 
# 记录 最 佳 模型 。 
if val acc > self.best_val_ace : 
self.best val acc = val acc 
self.best params = { } 
for k, v in self.model.params.iteritems( ) : 
self.best params[k ] = v.copy( ) 
# 训练 结束 后 返回 最 佳 模型 。 
self.model.params = self.best_params 











4.7.5 MAEA RS updater 


updater 负责 更 新 神经 网 络 的 权重 ， 其 传 入 参数 有 神经 网 络 的 权重 w、 当 前 权重 的 梯度 dw 
及 相应 的 更 新 配置 。 比 如 在 随机 梯度 下 降 sed 中 ， 我 们 使 用 学 习 率 和 当前 权重 梯度 更 新 权重 。 
该 模块 将 在 第 5 章 中 重点 讲解 ， 现 在 我 们 仅 提供 了 最 原始 的 sgd 算法 。 











Updater 代码 模块 


#-*- coding: utf-8 -*- 
import numpy as np 
频繁 使 用 的 神经 网 络 一 阶梯 度 更 新 规则 。 每 次 更 新 接收 : 当前 的 网 络 权重 ， 
训练 获得 的 梯度 及 相关 配置 进行 权重 更 新 。 
def update( w, dw, config = None ) : 
Inputs: 
- w: 当 前 权重 。 
- dw: 与 权重 形状 相同 的 梯度 。 
-config: 字典 型 超 参数 配置 ， 比 如 学 习 率 、 动 量 值 等 。 
如 果 更 新 规则 需要 用 到 缓存 ， 在 配置 中 需要 保存 相应 的 缓存 。 
Returns: 
-next w: 更 新 后 的 权重 。 
-config: 更 新 规则 相应 的 配置 。 


def sgd( w, dw, config = None ) : 
随机 梯度 下 降 更 新 规则 。 
config : 
-leaming rate: 学 习 率 。 


mn 
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if config is None: config = { } 


config.setdefault( leaming rate', 1e-2 ) 
w == config[ ‘learning rate' ] * dw 


return w, config 





° ”训练 神经 网 络 

解 看 神经 网 络 后 ， 接 下 来 我 们 测试 无 Dropout 情况 下 的 全 连接 网 络 ， 运 行 下 列 代码 模块 ， 
无 Dropout 神经 网 络 训练 可 视 化 效果 如 图 4-5 所 示 。 
训练 神经 网 络 代码 模块 : 


model = None 








trainer = None 
D, H, C, std, r = 3*32*32, 200, 10, 1e-2, 0.6 
model = FullyConnectedNet( input dim = D, hidden dims = [ H ], num classes = C, weight scale = std ) 
trainer = Trainer( model, data, update rule = 'sgd', 
updater config = { "learning rate' : le-3, }, 
lr decay = 0.95, num epochs = 20, 
batch size — 200, print every — 200 ) 








trainer.train( ) 


神经 网 络 解 耦 训练 结果 : 
GEAR 1/4900) 损失 值 : 4.680202 

周期 0/20) 训练 精度 : 0.155000; 验证 精度 : 0.163000 
(迭代 201/4900) 损失 值 : 1.954245 

期 1/20) 训练 精度 : 0.335000; 验证 精度 : 0.361000 
GEAR 401/4900) 损失 值 : 1.626711 

周期 2/20) 训练 精度 : 0.448000; 验证 精度 : 0.416000 
GEAR 601 / 4900) 损失 值 : 1.764400 





= 


周期 18/20) 训练 精度 : 0.647000; 验证 精度 : 0.517000 
(迭代 4601 / 4900) 损失 值 : 1.024862 
周期 19/20) 训练 精度 : 0.641000; 验证 精度 : 0.498000 
(迭代 4801/4900) 损失 值 : 0.904784 
周期 20/20) 训练 精度 : 0.644000; 验证 精度 : 0.515000 








可 视 化 训练 结果 : 
# 可 视 化 训练 /验证 结果 。 
plt.subplot( 2, 1, 1) 





plt.title( "Training loss' ) 
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plt.plot( trainer.loss history, 'o' ) 

plt.xlabel( 'Iteration' ) 

plt.subplot( 2, 1,2) 

plt.title( 'Accuracy' ) 

plt.plot( trainer.train acc history, '-o', label = 'train' ) 
plt.plot( trainer.val acc history, '-o', label = 'val' ) 
plt.plot( [ 0.5 ] * len( trainer.val acc history ), 'К-- ) 
plt.xlabel( 'Epoch' ) 

plt.legend( loc = 'lower right’ ) 

plt.gcf( ).set size inches( 15, 12 ) 

plt.show( ) 








Training loss. 





eration 


Accuracy. 
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FA 4-5 Ж; Dropout 神经 网 络 训练 结果 
4.7.6 正则 化 实验 


Dropout 是 一 种 高 效 且 简单 的 正则 化 措施 , 接 下 来 我 们 使 用 0.0.3 和 0.7 神经 元 激活 概率 ， 
测试 在 少量 数据 时 的 网 络 性 能 。 运 行 下 列 代码 块 ， 可 视 化 效果 如 图 4-6 所 示 。 


正则 化 实验 代码 模块 : 


num_train = 500 








Small data = { 
'X train': data[ 'X train' ][ : num train ], 








'y. train': data['y train' ][ : num train ], 
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"X_val': data[ 'X val' |, 
'y_val': data[ 'y_val' ], 
} 
solvers = ( } 
dropout_choices = [ 0, 0.3,0.7 ] 
for dropout in dropout_choices : 
model = FullyConnectedNet( hidden_dims = [ 600 ], dropout = dropout ) 
print "dropout 激活 概率 (0 表示 不 使 用 dropout) %f:" % dropout 
trainer = Trainer( model, small data, 
num_epochs = 30, batch_size = 100, 
update rule = 'sgd', 
updater config = { "learning rate': 5е-4, }, 
verbose = True, print every = 200 ) 
trainer.train( ) 


solvers[ dropout ] = trainer 


可 能 的 运行 结果 : 


dropout 激活 概率 (0 表示 不 使 用 dropout)0.000000: 

GEAR 1/150) 损失 值 : 8.925743 

(周期 0/30) 训练 精度 : 0.164000; 验证 精度 : 0.160000 

(周期 1/30) 训练 精度 : 0.262000; 验证 精度 : 0.199000 

(周期 29 /30) 训练 精度 : 1.000000; 验证 精度 : 0.298000 
(周期 30/30) 训练 精度 : 1.000000; 验证 精度 : 0.299000 
dropout 激活 概率 (0 表示 不 使 用 dropout)0.300000: 

(迭代 1/150) 损失 值 : 17.888175 

(周期 0/30) 训练 精度 : 0.166000; 验证 精度 : 0.143000 

(周期 1/30) 训练 精度 : 0.290000; 验证 精度 : 0.189000 

(周期 29 /30) 训练 精度 : 0.978000; 验证 精度 : 0.323000 
(周期 30/30) 训练 精度 : 0.986000; 验证 精度 : 0.315000 
dropout 激活 概率 (0 表示 不 使 用 dropout)0.700000: 

(迭代 1/150) 损失 值 : 10.675305 

(周期 0130) 训练 精度 : 0.160000; 验证 精度 : 0.140000 

(周期 1/30) 训练 精度 : 0.298000; 验证 精度 : 0.204000 

(周期 2130) 训练 精度 : 0.398000; 验证 精度 : 0.228000 

(周期 29/30) 训练 精度 : 1.000000; 验证 精度 : 0.289000 
(周期 30/30) 训练 精度 : 1.000000; 验证 精度 : 0.283000 
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可 视 化 训练 结果 代码 块 : 








train_accs = [ ] 
val accs=[] 
for dropout in dropout choices : 
solver = solvers[ dropout ] 
train accs.append( solver.train acc history[ -1 ] ) 
val accs.append( solver.val acc history[ -1 ] ) 
plt.subplot(3, 1, 1) 
for dropout in dropout choices : 
plt.plot( solvers[ dropout J.train acc history, 'o', label = '%.2f dropout' % dropout ) 
plt.title( "Train accuracy' ) 
plt.xlabel( 'Epoch' ) 
plt.ylabel( 'Accuracy' ) 
plt.legend( ncol = 2, loc = "lower right’ ) 
plt.subplot( 3, 1, 2 ) 
for dropout in dropout choices : 
plt.plot( solvers[ dropout J.val acc history, 'o', label = '%.2f dropout' % dropout ) 
plt.title( "Val accuracy' ) 
plt.xlabel( 'Epoch' ) 
plt.ylabel( 'Accuracy' ) 
plt.legend( ncol = 2, loc = "lower right ) 
plt.gcf( ).set size inches( 15, 15 ) 















































plt.show( ) 
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图 4-6 Dropout 正则 化 实验 
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从 图 4-6 中 , 我们 可 以 清晰 地 看 出 ， 当 不 使 用 Dropout 时 ， 网 络 在 训练 阶段 很 快 就 产生 了 
过 拟 合 现象 ， 并 且 较 低 的 神经 元 激活 概率 (0.3) 可 以 有 效 地 缓解 过 拟 合 现象 ， 并 且 在 验证 时 也 
拥有 最 佳 验证 精度 。 
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dropout forward 函数 代码 块 : 
def dropout_forward( x, dropout param ) : 





p. mode = dropout param[ 'p' ], dropout_param[ 'mode' ] 
if 'seed' in dropout_param : 
np.random.seed( dropout param[ 'seed' ] ) 
mask = None 
out = None 
if mode == 'train' : 
mask = ( np.random.rand( * x.shape ) <р )/p 
out = x * mask 
elif mode == 'test' : 
out =x 
cache = ( dropout_param, mask ) 
out = out.astype( x.dtype, copy = False ) 


return out, cache 





dropout_backward 函数 代码 块 : 
def dropout backward( dout, cache ) : 


dropout_param, mask = cache 
mode = dropout param[ 'mode' ] 
dx = None 
if mode = 'train': 

dx = dout * mask 
elif mode = 'test': 

dx = dout 


return dx 








affine_relu_dropout_forward 函数 代码 块 : 
def affine_relu_dropout_forward( x, w, b, dropout_param ) : 





out_dropout = None 
cache = None 
out affine, cache affine = affine forward( х, w, b ) 


out relu, cache relu = relu forward( out affine ) 
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out dropout, cache_dropout = dropout forward( out relu, dropout param ) 


cache = ( cache affine, cache relu, cache dropout ) 


return out dropout, cache 








affine relu dropout backward 函数 代码 块 : 





defaffine relu dropout backward ( dout, cache ) : 
cache affine, cache relu, cache dropout = cache 
dx, dw, db = None, None, None 
ddropout = dropout_backward( dout, cache_dropout ) 
drelu = relu_backward( ddropout, cache_relu ) 
dx, dw, db = affine_backward( drelu, cache_affine ) 


return dx, dw, db 








Loss 函数 代码 块 : 
def loss ( self, X, у = None ) : 
mode = 'test' if y is None else 'train" 
if self.dropout_param is not None: 
self.dropout param[ 'mode' ] = mode 
Scores — None 
outs, cache = { }, { } 
outs[ 0 ] = X 
num_h =self.num_layers - 1 
for i in xrange( num_h ) : 
if self.use_dropout : 
outs[ i+ 1 ], cache[ i +1] = affine_relu_dropout_forward( 
outs[ i ], self.params[ 'W' + str(i + 1 ) ], 
self.params[ 'b' + str( i + 1 ) ], self.dropout param ) 
else : 
outs[ i + 1], cache[ i + 1 ] = affine relu forward( 
outs[ i ], self.params[ 'W' + str( i +1 ) ], 
self params[ 'b' + str(i+1)]) 
scores,cache[ num_h + 1 ] = affine forward( 
outs[ num_h ], self.params[ 'W' + str( num h + 1 ) J, 
self.params[ 'b' + str( num _h + 1)]) 
if mode = 'test' : 
return scores 
loss, grads = 0.0, { } 
дош = { } 


loss, dy = softmax_loss( scores, y ) 
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һ = self.num layers -1 
for i in xrange( self.num layers ) : 
loss + = 0.5 * self.reg * ( np.sum( self.params[ "W' + str(i+ 1) ] * 
self params[ 'W' + str(i+1)])) 
dout[ h ], grads[ 'W' + str( h + 1 ) ], grads[ 'b' + str( h + 1 ) ] = affine backward( dy, cache[ h + 1 ]) 
grads[ 'W' + str( h + 1 ) ] + = self.reg * self.params [ 'W' + str( h + 1 ) ] 
for i in xrange( h ) : 
ifself.use dropout : 
dout[h - 1 - i ], grads[ "W' + str( h — i ) ], grads[ 'b' + st( h - i) ] = 
affine relu dropout backward( dout[ h — i ], cache[ h- i ] ) 
else : 
dout[ h - i - 1 ], grads[ 'W' + st( h — i ) ], grads[ 'b' + st(h-i)] = 
affine relu backward( dout[ h — i], cache[ h — i] ) 
grads[ 'W' + str( h — i) ] + =self.reg * self.params[ 'W' + str( h — i ) ] 








return loss, grads 
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不 知 不 觉 中 我 们 已 经 走 过 了 前 4 章 的 内 容 ， 开 始 时 你 可 能 满怀 期 待 地 阅读 本 书 。 当 编写 
完 第 一 个 深层 神经 网 络 时 ， 可 能 也 激动 万 分 ， 感觉 自己 马上 就 能 改变 世界 了 。 但 随后 的 训练 ， 
或 许 让 你 感到 绝望 。 训 练 深层 神经 网 络 是 非常 困难 的 ， 暗 含 大 量 的 训练 技巧 ， 需 要 令 人 眼花 
练 乱 的 超 参数 配置 种 类 ， 还 可 能 经 常会 面临 奇怪 的 数值 溢出 问题 。 为 什么 优化 深度 学 习 那 么 
困难 呢 ? 

这 就 如 同 孤 独 的 你 ， 在 迷雾 中 寻找 下 山 的 路 。 你 可 能 需要 面 对 大 量 的 局 部 最 优 、 鞍 点 、 
悬崖 等 客观 存在 的 困难 ， 也 可 能 会 面 对 不 精确 梯度 〈 数 据 不 准确 ) ， 梯 度 消失 等 自身 缺陷 问 
题 。 稍 有 不 慎 ， 你 就 可 能 迷失 自己 ， 跌 入 万 丈 深渊 。 为 了 解救 绝望 的 你 ， 本 章 我 们 将 介绍 一 
些 深度 学 习 常用 的 优化 手段 ， 希 望 能 够 帮助 你 训练 神经 网 络 ， 让 你 再 次 重 燃 热情 。 

在 本 章 中 ， 我 们 首先 会 解释 神经 网 络 优化 困难 的 一 些 具体 原因 ， 然 后 会 介绍 一 些 基本 的 
优化 算法 ， 如 SGD、Momentum、AdaGrad、RMSProp 及 Adam 学 习 方法 。 在 此 之 后 ， 我 们 
还 会 介绍 神经 网 络 的 参数 初始 化 策略 ， 而 在 最 后 ， 我 们 将 重点 介绍 深度 学 习 的 小 明星 一 一 批 
量 归 一 化 (Batch Normalization) 。 

在 本 章 的 编程 练习 中 ， 我 们 会 逐个 实现 Momentum、RMSProp 及 Adam 算法 ， 并 简单 地 
比较 它们 的 性 能 。 最 后 ， 我 们 会 将 重点 放 在 批量 归 一 化 的 编程 练习 3 上。 虽然 其 理解 很 容易 ， 
但 实际 编程 可 能 让 你 有 点 痛苦 ， 和 希望 我 们 能 够 一 起 圆满 地 解决 这 些 困 难 。 
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5.1 神经 网 络 优化 困难 


最 优化 是 一 个 极度 困难 的 问题 ， 在 机 器 学 习 中 ， 通 常 需要 小 心 翼 翼 地 设计 目标 函数 及 其 
约束 ， 然 后 还 要 确保 面 对 的 优化 问题 是 一 个 凸 函数 ， 之 后 才能 进行 机 器 学 习 。 但 非常 遗憾 ， 
在 神经 网 络 中 我 们 必须 经 常 面 对 非 凸 函数 的 优化 问题 。 本 小 节 我 们 将 介绍 一 些 深度 学 习 所 面 
临 的 优化 挑战 ， 这 其 中 包括 了 局 部 最 优 、 鞍 点 、 梯 度 悬 崖 及 梯度 消失 问题 。 


5.11 局 部 最 优 


凸 函数 最 显著 的 特征 是 能 够 找到 一 个 局 部 最 优 解 ， 并 且 此 解 是 全 局 的 最 优 解 。 但 有 时 我 
们 也 并 不 执着 于 寻找 最 优 的 某 一 点 ， 在 某 些 凸 函数 的 底部 可 能 是 一 个 犹如 盆地 的 平坦 区 域 ， 
在 该 平坦 区 域 取得 的 任何 值 也 是 可 以 接受 的 。 

但 如 图 5-1 所 示 ， 在 非 凸 函 数 中 ， 有 可 能 含有 多 个 局 部 最 优 解 。 特 别 是 在 深度 神经 网 络 
中 ， 局 部 最 优 解 的 数量 就 更 多 了 。 就 好 像 我 们 寻找 下 山 的 路 ， 只 能 走 一 步 看 一 步 。 如 果 局 部 
最 优 很 多 ， 那 我 们 很 可 能 就 迷失 在 了 半山 腰 。 

但 局 部 最 优 也 并 非 想象 得 那样 可 怕 , 对 于 机 器 学 习 而 言 , 我 们 其 实 不 太 害怕 局 部 最 优 解 ， 
我 们 害怕 的 是 找到 的 解 和 全 局 最 优 相差 很 大 , 并 且 机 器 学 习 也 并 非 只 是 一 个 纯粹 的 优化 问题 ， 
在 已 知 数据 中 找到 最 优 解 也 不 是 机 器 学 习 的 目的 。 在 实践 中 我 们 发 现 ， 最 优 解 附近 的 解 其 泛 
化 性 能 通常 也 要 比 最 优 解 要 好 。 

多 年 前 ， 多 名 数学 研究 者 都 相信 局 部 最 优 会 是 神经 网 络 中 非常 普遍 的 灾难 性 问题 站 。 而 
如 今 ， 这 也 不 是 一 个 显著 问题 ,虽然 对 于 该 领域 的 研究 仍然 火热 ， 但 专家 们 现在 开始 怀疑 ， 
对 于 大 规模 的 神经 网 络 而 言 ， 大 多 数 局 部 最 优 都 有 一 个 比较 低 的 损失 值 趾 ， 并 且 寻 找 真实 的 
全 局 最 优 也 不 是 一 个 很 重要 的 问题 , 重要 的 是 在 参数 空间 中 找到 一 个 相对 较 低 的 局 部 最 优 值 。 





局 部 最 优点 ， 但 其 效果 较 
好 ， 可 作为 算法 中 断 点 。 


f(x) 


较 差 的 局 部 最 优 
点 ,应 该 尽量 避免 。 





т 


图 5-1 函数 局 部 最 优 解 示意 图 
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5.1.22 $A 


对 于 高 维 数据 来 说 ， 局 部 最 优 可 能 已 不 是 非常 严重 的 问题 ， 因 为 存在 着 一 个 更 突出 的 问 
题 一 一 鞍点 (saddle point) 。 如 图 5-2 所 示 ， 鞍 点 就 像 是 两 座 山峰 的 中 间 区 域 ， 该 区 域 不 是 局 
部 最 优 值 ， 但 该 区 域 十 分 平坦 ， 换 言 之 就 是 梯度 几乎 为 零 。 就 好 像 你 在 大 雾 中 找到 一 块 平地 ， 
你 环顾 四 周 都 无 法 确定 一 条 路 。 对 于 鞍点 和 局 部 最 优 ， 可 以 想象 成 是 丢 硬币 的 过 程 :硬币 全 
为 正面 就 为 局 部 最 优 解 ， 有 部 分 为 正面 就 为 鞍点 ， 硬 币 的 个 数 就 是 数据 的 维度 ， 如 果 维 度 越 
高 ， 那 么 出 现 局 部 最 优 的 概率 也 就 越 低 ， 但 鞍点 的 数目 ， 却 是 成 指数 增长 中 。 











5-2 ”鞍点 示意 图 


多 层 神经 网 络 还 经 常会 有 极度 陡峭 的 区 域 ， 就 如 同 悬 崖 一 般 ， 如 图 5-3 所 示 ， 高 度 非 线 
性 的 深度 神经 网 络 或 者 循环 神经 网 络 ， 在 参数 空间 中 常常 含有 尖锐 的 非 线性 ， 这 导致 了 某 些 
区 域 可 能 会 产生 非常 高 的 梯度 四 。 当 参数 靠近 这 一 悬崖 区 域 ， 高 梯度 会 将 参数 弹射 到 很 远 的 
地 方 ， 很 可 能 导致 原本 的 优化 工作 半途 而 废 。 

需要 注意 的 是 ， 由 于 循环 神经 网 络 涉及 在 多 个 时 间 段 内 相 乘 ， 因 此 梯度 悬崖 在 递归 神经 
网 络 中 十 分 频繁 ， 特 别 是 处 理 较 长 的 时 序 序列 时 ， 该 问题 会 变 得 异常 令 人 头疼 。 


J(w,b) 


b 
图 5-3 梯度 悬崖 示意 图 
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5.1.4 梯度 消失 或 梯度 爆炸 


深度 学 习 最 大 的 特点 是 其 网 络 非常 深 ( 层 数 非常 多 ) ， 深 度 提升 了 模型 的 复杂 度 与 能 力 ， 

但 也 导致 了 深度 学 习 中 的 一 大 难题 ， 那 就 是 梯度 消失 问题 (Vanishing Gradient Problem) P. 

这 个 问题 也 是 曾经 导致 深度 学 习 只 能 被 称 为 “( 浅 层 ) 神经 网 络 ” 的 最 主要 原因 。 该 问题 随 

着 ReLU 单元 的 使 用 而 得 到 了 极 大 的 缓解 四 ， 但 在 一 些 特定 的 神经 网 络 中 ， 如 循环 神经 网 络 
CRNN) ， 该 问题 依然 严重 。 

梯度 为 什么 会 消失 呢 ? 这 其 实 是 使 用 链 式 求 导 法 则 所 引起 的 。 如 图 5-4 所 示 ， 为 一 个 极 

度 简化 的 4 层 单 神经 元 的 神经 网 络 。 根 据 BP 算法 进行 计算 ， 第 一 层 的 权重 如 式 〈5.1) 所 示 。 

oL 

ðw, 


Ll 12 L3 L4 
ө © Ө- 
图 54 4 层 单 神经 元 神经 网 络 示意 图 
最 关键 的 问题 就 出 现在 激活 函数 的 导数 中 ， 在 我 们 的 极 简 版 4 层 神经 网 络 中 ， 第 一 层 权 

重 的 梯度 大 约 要 乘 以 后 三 层 激活 函数 的 导数 ， 如 果 我 们 使 用 Sigmoid 神经 元 ， 该 神经 元 的 导 
函数 的 图 像 如 图 5-5 所 示 ， 取 值 范围 为 (0,0.25]。 即 使 我 们 都 取 其 最 大 值 ， 那 经 过 三 层 反 向 传 
导 之 后 也 仅仅 只 有 0.015625。 因 此 在 深层 网 络 中 ， 即 使 网 络 预 测 产 生 了 很 大 的 误差 ， 但 底层 
的 神经 元 依然 没有 得 到 足够 的 误差 修正 。 


= (у= Á(a,)) fy (ag) Ws fí(a,)w, f7(a5)x (5.1) 








TIT 
eae Sigmoid 导 函数 
020 
0454 
040 
0054 
0.00 T T T T 1 
4 3 2 1 0 1 z 3 4 
Z 


图 5-5 Sigmoid 神经 元 导 函 数 图 像 
那 什么 又 是 梯度 爆炸 问题 (Exploding Gradient Problem) PWE? 如 式 (5.1) 所 示 ， 本 层 权 
重 的 梯度 可 以 简化 为 上 层 各 神经 元 的 梯度 与 其 权重 的 乘积 ， 如 果 上 层 的 权重 过 大 ， 当 经 过 传 
递 后 ， 本 层 的 梯度 就 会 变 得 异常 巨大 ， 造 成 梯度 非常 不 稳定 。 但 相 比 于 梯度 消失 ， 梯 度 爆 炸 
问题 比较 容易 解决 ， 并 且 发 生 的 情况 也 不 频繁 。 
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5.1.5 ”梯度 不 精确 


大 多 数 优化 算法 最 原始 的 动机 都 是 试图 获取 代价 函数 对 应 的 精确 梯度 ， 从 而 优化 学 习 器 。 
但 在 实践 中 ， 我 们 经 常 使 用 含有 噪声 的 梯度 进行 优化 。 比 如 梯度 下 降 法 需要 遍历 所 有 训练 数 
据 后 计算 出 平均 梯度 ， 然 后 才 修 改 网 络 ， 但 这 种 方法 在 数据 较 大 时 训练 速度 太 慢 ， 因 此 深度 
学 习 通 常会 进行 数据 采样 ， 使 用 最 小 批量 梯度 下 降 学 习 方 法 进行 网 络 训练 ， 甚 至 在 极端 情况 
下 还 会 使 用 随机 梯度 下 降 〈 一 次 采样 一 条 数据 ) 进行 网 络 训练 。 
这 种 不 精确 的 梯度 ， 也 就 导致 了 训练 的 稳定 性 较 差 ， 但 梯度 不 精确 有 时 也 可 以 看 作 是 防 
止 过 拟 合 以 及 逃离 局 部 最 优 或 鞍点 的 方法 。 机 器 学 习 终 究 不 是 一 个 最 优化 问题 ， 但 其 却 要 依 
靠 优化 手段 来 完成 机 器 学 习 任务 。 具 体 问 题 ， 还 需要 根据 实际 需求 进行 思考 。 


5.1.6 ”优化 理论 的 局 限 性 


- 些 理论 结果 显示 ， 很 多 针对 神经 网 络 而 设计 的 优化 算法 有 着 局 限 性 四， 但 在 实践 中 ， 
这 些 理论 结果 却 很 少 对 神经 网 络 产生 影响 。 这 也 是 相 比 于 其 他 机 器 学 习 算法 而 言 ， 神 经 网 络 
更 像 是 一 个 黑 盒 。 神 经 网 络 中 存在 着 大 量 的 训练 技巧 ， 这 也 使 得 训练 神经 网 络 更 像 是 艺术 而 
非 科学 。 

在 神经 网 络 的 训练 中 ， 我 们 通常 不 关心 能 否 找 到 精确 的 全 局 最 优 解 ， 我 们 仅仅 是 去 降低 
代价 函数 的 值 ， 使 其 能 够 获得 较 好 的 泛 化 性 能 。 但 我 们 并 不 是 不 想 获得 全 局 最 优 解 ， 只 是 理 
论 分 析 神 经 网 络 算法 是 一 个 极其 困难 的 任务 。 总 而 言 之 ， 深 度 学 习 是 实践 的 产物 ， 还 缺乏 强 
有 力 的 理论 支持 ， 很 多 科研 人 员 仍然 对 其 保持 着 怀疑 态度 ， 如 何 理智 地 评估 深度 学 习 算 法 性 
能 边界 仍然 是 机 器 学 习 中 一 个 重要 的 目标 。 


5.2 ”随机 梯度 下 降 


随机 梯度 下 降 (Stochastic Gradient Descent, SGD) 四 及 其 变异 ， 可 以 算是 深度 学 习 中 使 
用 最 广泛 的 优化 算法 了 。 早 在 本 书 的 第 2 章 中 我 们 就 简单 地 介绍 过 该 算法 ， 在 本 小 节 中 我 们 
将 更 加 全 面 地 介绍 该 算法 ， 如 果 你 已 经 非常 熟悉 此 部 分 的 内 容 ， 可 以 直接 跳 到 5.3 节 动 量 学 
习 法 中 进行 学 习 。 

如 算法 5.1 所 示 ， 是 一 个 标准 的 随机 梯度 下 降 训 练 过 程 。 其 实 就 是 选择 一 条 数据 ， 就 训 
练 一 条 数据 ， 然 后 修改 一 次 权重 。SGD 算法 在 训练 过 程 中 很 有 可 能 选择 被 错误 标记 的 数据 ， 
或 者 与 正常 数据 差异 很 大 的 数据 进行 训练 ， 那 么 使 用 此 数据 求 得 的 梯度 就 会 有 很 大 的 偏差 ， 
因此 SGD 在 训练 过 程 中 会 出 现 很 强 的 随机 现象 。 








算法 5.1: 随机 梯度 下 降 算法 
给 定数 据 集 式 = {xx ,xm}， 数 据 集 标记 了 = {yyy}, 
学 习 器 f(x;w) ， 学 习 率 ОР) а. 
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For (LEB E x 
{ 
1. 随 机 选择 数据 ， Q0, y) 


2 计算 损失 榜 度 ， v SOT oom 


SERRE: и, =w,-oVw 
} 





为 了 防止 这 种 随机 性 带 来 的 危害 ， 我 们 就 多 选 几 条 数据 ， 然 后 计算 一 下 多 条 数据 的 平均 
错误 ， 如 式 〈5.2) 所 示 。 即 使 有 某 条 数据 存在 严重 缺陷 ， 也 会 因为 多 条 数据 的 中 和 而 降低 其 
错误 的 程度 。 就 好 像 是 一 个 人 发 现 了 错误 ， 但 并 没有 急 着 调整 自己 ， 而 是 再 多 看 看 其 他 的 一 
些 情 况 ， 然 后 综合 地 来 调整 自己 。 


Vw 


m Go» (p. 
LS uer fiw) (52) 


m^ ow 

在 上 述 的 算法 中 ， 学 习 率 a 是 固定 的 值 。 但 在 实践 中 ， 我 们 往往 需要 通过 训练 次 数 的 增 
长 而 逐渐 地 降低 学 习 率 。SGD 算法 引入 了 源 噪 声 , 而 这 种 噪声 是 个 体 数据 的 特殊 性 所 造成 的 ， 
因此 ， 即 使 我 们 的 算法 到 达 了 最 优 解 附 近 ， 其 噪声 也 不 会 消失 ， 这 也 就 形成 在 最 优 解 附近 振 
荡 的 现象 。 为 了 消除 或 缓解 这 种 情况 ， 我 们 就 在 靠近 最 优 解 周围 尽 可 能 地 减少 学 习 率 。 这 就 
如 同 我 们 的 成 长 一 样 ， 年 轻 时 我 们 容易 出 错 ， 我 们 也 很 乐于 调整 自己 ， 反 思 自 己 。 随 着 我 们 
的 成 长 ， 学 习 到 的 知识 越 来 越 多 ， 但 我 们 也 会 越 来 越 固 执 。 当 人 到 中 年 ， 所 见 事物 和 自己 想 
的 不 一 样 ， 我 们 很 可 能 不 是 去 学 习 新 事物 ， 而 是 去 质疑 那些 “不 一 样 ”， 和 否认 新 事物 的 发 生 ， 
即使 面 对 不 得 不 调整 自己 的 情况 ， 也 只 是 懒散 地 做 出 微调 。 

综 上 所 述 ， 我 们 将 原本 固定 的 学 习 率 a 设计 为 时 间 衰 减 的 形式 。 初 始 时 学 习 率 较 高 ， 随 
着 训练 轮 数 的 增加 ， 学 习 率 不 断 地 减少 。 但 我 们 也 不 希望 学 习 率 一 直 衰 减 ， 因 此 也 会 设置 一 
个 学 习 率 的 最 低 值 。 如 式 (5.3) Bros. AVA RIN HOE SIH 

a, - (1 Das rb (53) 

学 习 率 的 取 值 需要 反复 的 实验 ， 通 常 最 好 的 方式 是 通过 代价 函数 的 变化 情况 来 监控 学 习 
率 的 变化 曲线 。 但 这 与 其 说 是 科学 ， 还 不 如 说 是 一 项 艺术 ， 许 多 针对 学 习 率 的 调整 方法 都 太 
过 技巧 性 。 当 我 们 使 用 式 〈5.3) 这 样 的 线性 策略 来 调整 学 习 率 时 ， 通 常 需要 进行 上 百 轮 的 学 
习 调 整 ， 因 此 要 大 于 一 百 ， 而 5b 的 取 值 可 以 粗略 地 设置 为 百 分 之 一 的 初始 学 习 率 。 现 在 的 
主要 问题 就 是 如 何 设 置 初始 学 习 率 ， 如 果 太 大 ， 学 习 曲 线 就 会 剧烈 震荡 ; 如果 初 始 值 太 小 ， 
那 学 习 过 程 就 会 非常 缓慢 ， 并 且 还 会 陷入 一 个 比较 高 的 代价 函数 区 域 。 在 实际 测试 中 ， 学 习 
率 通 常 要 作为 超 参 数 进行 选择 ， 并 没有 一 个 固定 的 取 值 方法 。 综 上 所 述 ， 如 算法 5.2 所 示 ， 
就 为 改进 的 随机 梯度 下 降 后 的 学 习 率 衰减 最 小 批量 梯度 下 降 训练 法 。 























算法 5.2: 学 习 率 衰减 最 小 批量 梯度 下 降 训 练 法 





初始 化 : 
给 定数 据 集 瑟 = (x9,x x}, SSRI Y ={у®,у®,...,у%}, 
随机 采样 m 条 数据 ， 训 练 周期 x:， 学 习 率 衰减 最 低 值 »， 学 习 器 f(xw)， 
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初始 学 习 率 〈 步 长 ) wm 。 

训练 : 

Богі <= К 

{ 

1. 随 机 采样 m 条 数据 : (60,0). (0,0) 





она SPEDE, w= LE MOM tom 


RREZ: а =0- Da, +ib 


4. 修 改 网 络 权 重 : w, =w; -oVw 
} 








5.3 动量 学 习 法 


我 们 经 常 把 梯度 下 降 比 拟 成 在 迷雾 中 下 山 ， 而 梯度 下 降 法 其 实 就 是 走 一 步 ， 然 后 停 下 来 
看 一 步 ， 然 后 再 走 一 步 。 这 种 方法 使 用 起 来 非常 方便 和 有 效 ， 但 当 损失 函数 接近 鞍点 或 局 部 
最 优点 时 ， 我 们 的 梯度 就 会 变 得 非常 小 ， 优 化 的 过 程 也 就 会 变 得 异常 的 缓慢 。 

我 们 可 以 将 梯度 理解 成 力 ， 该 力 指引 着 我 们 向 山谷 前 行 ， 但 我 们 并 不 是 靠 力 前 行 ， 而 靠 
的 是 速度 ， 而 力 只 是 改变 速度 的 大 小 和 方向 。 并 且 速 度 是 可 以 积累 的 ， 因 此 我 们 还 具有 动量 ， 
当 力 (梯度 ) 改变 时 就 会 有 一 段 逐 渐 加 速 或 逐渐 减速 的 过 程 。 想 必 你 也 知道 我 们 会 做 什么 了 ， 
通过 引入 动量 的 概念 ， 我 们 可 以 加 速 学 习 的 过 程 ， 可 以 在 鞍点 处 继续 前 行 ， 也 可 以 逃离 一 些 
较 小 的 局 部 最 优 区 域 。 

接 下 来 ， 我 们 稍微 正式 地 来 定义 动量 (Momentum). 9 学 习 算法 。 首 先 类 似 于 物理 学 ， 
我 们 用 变量 v 表示 速度 ， 表 明 参 数 在 参数 空间 移动 的 方向 及 速率 ， 而 代价 函数 的 负 梯 度 表示 
参数 在 参数 空间 移动 的 力 。 根 据 牛顿 运动 定律 ， 动 量 等 于 质量 乘 以 速度 ， 而 在 动量 学 习 算法 
中 ,我 们 假设 质量 为 单位 1， 因此 速度 v 就 可 以 直接 当 作 动 量 。 我 们 同时 也 引入 超 参数 8， 其 
取 值 在 [0,1] 范 围 之 间 ， 用 于 调节 先前 梯度 (JJ) 的 训 减 效果 。 其 更 新 方式 如 式 (5.4) 和 式 (5.5) 
所 示 。 


у= fiv.-oNw (5.4) 


w=w+v (5.59 


结合 算法 5.1 中 的 随机 梯度 算法 ， 可 以 完成 加 入 动量 后 改进 的 随机 梯度 下 降 算法 ， 如 算 
法 5.3 所 示 。 





算法 5.3: 动量 随机 梯度 下 降 算法 





初始 化 : 

给 定数 据 集 式 = fxo,x2, ,xm}， 数 据 集 标 记 了 = 00, уо, уе), MISERE v， 随 机 采样 数据 大 小 m, 
训练 周期 上 学习 器 f(x;w) ， 初 始 学 习 率 Kx， 初始 动量 参数 p. 

训练 : 
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Fori<=k 





{1. 随 机 采样 m 条 数据 ， (x,y) y 
оН УРНЫ, w TS MON LE 


3. 更 新 速度 : v= v-ovVw 
4. 更 新 参数 : w=wtv } 








在 随机 梯度 下 降 中 ， 每 一 步 走 多 远 是 简单 的 梯度 乘 以 学 习 率 ， 而 在 动量 学 习 算法 中 ， 每 
- 步 走 多 远 依赖 的 是 过 去 的 速度 以 及 当前 的 力 ( 梯 度 ) 。 速 度 o 用 于 累加 各 轮训 练 的 参数 梯 
HE, 8 越 大 先前 梯度 对 于 本 轮训 练 梯度 的 影响 就 越 大 。 假 设 每 轮训 练 的 梯度 方向 都 是 相同 的 ， 
就 如 同 小 球 从 斜坡 一 直 往 下 滚 落 ， 但 由 于 衰减 因子 B 的 存在 ， 小 球 并 不 会 一 直 加 速 往 下 ， 而 
是 达到 速度 的 最 大 值 后 就 匀速 前 行 。 我 们 假设 每 轮 获得 的 梯度 都 是 相同 的 ， 那 该 速度 的 最 大 
值 就 如 式 〈5.6) Brom. 
selvi (5.6) 
mm 1 : 
也 可 以 将 这 一 过 程 理解 为 受到 空气 阻力 的 加 速 运动 ， 由 于 速度 越 大 ， 空 气 阻力 就 越 大 。 
因此 一 个 受 力 运动 的 小 球 最 终 会 加 速 到 一 个 受 力 平衡 的 状态 ， 然 后 以 最 大 速度 运动 。 如 果 
B=0.9， 那 么 其 最 大 速度 就 相当 于 梯度 下 降 的 10 倍 。 
在 实践 中 ， 常 用 的 取 值 可 以 是 0.5、0.9 或 者 是 0.99。 当 然 也 可 以 像 学 习 率 a 的 调整 一 
样 来 根据 训练 轮 数 的 增加 自 适应 地 衰减 ， 但 对 于 p 的 调整 ， 并 没有 a 的 调整 重要 ， 因 此 ， 不 
太 需 要 作为 超 参 数 进行 选择 ， 正 常情 况 下 ， 取 值 适当 即 可 。 


5.4 AdaGrad 和 RMSProp 


在 前 面 的 小 节 中 ， 我 们 都 使 用 一 个 全 局 的 学 习 率 ， 所 有 的 参数 都 是 统一 步伐 整齐 向 前 ， 
但 这 种 “蛮横 ”的 行为 是 有 些 问题 的 。 我 们 将 深度 学 习 优化 的 过 程 想象 成 在 一 个 复杂 多 变 的 
深山 中 找 出 路 ， 群 山 之 中 有 低谷 、 鞍 点 、 悬 崖 和 高 原 ， 如 果 我 们 真 的 只 是 看 一 步 走 一 步 〈 梯 
度 下 降 ) ， 或 者 奔跑 向 前 (动量 学 习 ) ， 那 我 们 可 能 会 摔 得 “ 头 破 血 流 ”， 接 下 来 我 们 就 个 
性 化 的 针对 每 一 个 参数 单独 地 配置 学 习 率 。 


e AdaGrad 

AdaGrad0 算 法 其 实 很 简单 ， 就 是 将 每 一 维 各 自 的 历史 梯度 的 平方 辩 加 起 来 ， 然 后 在 更 
新 的 时 候 除 以 该 历史 梯度 值 即 可 。 例 如 ， 针 对 第 i 参数， 算法 如 下 。 

首先 ， 如 式 〈5.7) 所 示 ， 我 们 将 当前 梯度 的 平方 累加 在 cache 中 ， 使 用 平方 的 原因 是 去 
除 梯度 的 符号 ， 我 们 只 对 梯度 的 量 进行 累加 。 


cache, = cache, + (Vw)? (5.7) 


其 次 ， 如 式 (5.8) 所 示 ， 在 更 新 参数 时 ， 学 习 率 需要 除 以 根 号 cache， 其 中 6 =10”， 防 
止 数 值 溢出 。 
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w, =w VW, (5.8) 
cache, + ó 

MX (5.8) 中 可 以 看 出 ，AdaGrad 使 得 参数 在 累积 的 梯度 量 较 小 时 (<1)， 放 大 学 习 率 ， 
使 网 络 的 训练 更 加 快速 。 在 梯度 的 累积 量 较 大 时 (>1), 缩小 学 习 率 ， 延 组 网 络 训 练 。 这 就 好 比 
网 络 训练 开始 时 要 勇往直前 ， 当 走 完 一 段 距离 后 要 小 心 辟 翼 。 那 么 AdaGrad 有 什么 问题 吗 ? 
细心 的 读者 可 能 早已 观察 出 来 了 ，AdaGrad 很 容易 受到 “过 去 ”的 影响 ， 因 为 梯度 很 容 
易 就 会 累积 到 比较 大 的 值 ， 此 时 学 习 率 就 会 被 降低 得 非常 厉害 。 因 此 AdaGrad 很 容易 过 分 降 
低 学 习 率 。 那 么 要 如 何 改进 该 算法 呢 ? 那 就 很 简单 了 ， 做 一 只 快乐 的 小 金鱼 ， 忘 记 “ 过 去 ” 


° RMSProp 


虽然 AdaGrad 理论 上 有 些 比较 好 的 性 质 ， 但 在 实践 中 ， 优 化 神经 网 络 却 十 分 不 友好 。 其 
原因 就 在 于 随 着 训练 周期 的 增长 ， 学 习 率 降低 得 很 快 。 

因此 ，RMSProp3 算 法 就 在 AdaGrad 基础 上 引入 衰减 因子 ， 如 式 (5.9) 所 示 ，RMSProp 
算法 在 进行 梯度 累积 的 时 候 ， 会 对 “过 去 ”与 “现在 ”做 一 个 权衡 。 通 过 超 参数 8 来 调节 误 
减 量 ， 常 用 的 取 值 有 0.9 或 0.5。 


cache, = 8 -cache, +(1— 8)(Vw,)” (5.9) 

在 参数 更 新 阶段 ， 和 AdaGrad Hillel, Wisk (5.10) 所 示 ， 学 习 率 除 以 历史 梯度 总 和 即 可 。 
w, = w. EN. Е Vw, 

pg: cache, +ó i (5.10) 


在 实践 中 ，RMSProp 更 新 方式 对 于 深度 学 习 网 络 十 分 的 高 效 ， 是 深度 学 习 中 最 有 效 的 更 
新 方式 之 一 。 


5.5 Adam 


Adam03 的 名 称 来 源 于 “adaptive moments”， 可 以 将 其 看 作为 Momentum + RMSProp 的 
微调 版 本 。 该 方法 是 目前 深度 学 习 中 最 流行 的 优化 方法 ,在 默认 情况 下 ,我 们 都 推荐 使 用 Adam 
作为 参数 更 新 方式 。 

首先 ， 如 式 〈5.11) 所 示 ， 计 算 当 前 最 小 批量 数据 梯度 go 


g =e Tm 611) 
然后 ， 如 式 〈5.12) 所 示 ， 类 似 于 动量 学 习 法 ， 计 算 衰 减 梯度 vo 
v=B-v+(I-B)g (5.12) 
然后 ， 如 式 (5.13) 所 示 ， 类 似 于 RMSProp 学 习 法 ， 计 算 衰减 学 习 率 r. 
r=B,-r+(1-B)g (5.13) 
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最 后 ， 如 式 (5.14) 所 示 ， 更 新 参数 。 


a 
NEA (5.14) 
m 


以 上 就 是 Adam 算法 ， 是 不 是 很 简单 。 但 还 有 一 点 小 问题 ， 那 就 是 在 开始 时 梯度 会 非常 

小 , All v 经 常会 接近 于 0， 因 此 我 们 还 需要 做 一 步 “ 热 身 ” 工 作 。 如 式 〈5.15) MR, RN 
将 上 和， 分别 除 以 1 减 去 各 自 衰减 率 的 + 次 方 之 差 。 

vb= 


w=w- 





v r 








I-A ^ " "A 
其 中 1 表示 训练 的 次 数 ， 因 此 仅仅 在 训练 的 前 几 轮 中 根据 衰减 因子 来 放大 各 自 值 ， 很 快 
vb 和 rb 就 会 退化 为 v 和 +。Adam 学 习 算 法 如 下 所 示 。 


算法 5.4: Adam 学 习 算法 

初始 化 : 

给 定数 据 集 忒 = xx}, BGR Y = (0, уо, y), PRE v BELEK) m, VII 
周期 上 学习 器 .fx Ww) ， 初 始 学 习 率 w， 动 量 衰减 参数 太 ， 学 习 率 衰减 参数 永 ，5=107 。 

训练 : 

Fort<k 

{ ТЖЕ т RBG: (0, у) (t, ym) 


(5.159 


2 计算 当前 采样 数据 梯度 ，g = SAO orum 
3. 更 新 当前 速度 ，v= B-v+0-Ae 

4. 更 新 当前 学 习 率 : r= B, r+(- B,)g2 

5. 更 新 训练 次 数 : t= enl 








TE м a 
6 更 新 参数 wew- ) 








5.6 ”参数 初始 化 策略 


深度 学 习 的 优化 过 程 可 以 看 作 是 下 山 的 过 程 ， 山 路 崎 民 ， 有 鞍点 ， 有 局 部 最 优点 ， 也 有 
悬崖 点 。 之 前 我 们 学 习 了 很 多 下 山 的 方法 ， 如 SGD、Momentum、RMSProp 和 Adam 都 是 不 
错 的 方法 。 但 无 论 使 用 何 种 学 习 方式 ， 都 避免 不 了 同一 个 问题 ， 那 就 是 下 山 的 起 始点 问题 ， 
也 就 是 参数 的 初始 化 问题 。 

如 果 参 数 初始 点 不 好 ， 学 习 算 法 可 能 根本 无 法 收敛 ， 也 可 能 造成 学 习 算法 不 稳定 ， 容 易 
遭遇 数值 溢出 而 无 法 学 习 。 初 始 化 的 参数 即使 是 可 收敛 的 ， 不 同 的 参数 也 决定 着 学 习 的 收敛 
速度 以 及 能 否 降 低 到 足够 低 的 损失 值 区 域 。 初 始 化 不 仅 影 响 训 练 效 果 ， 还 能 影响 模型 的 泛 化 
性 能 ， 这 也 许 就 是 人 们 所 说 的 输 在 起 跑 线 上 吧 ! 

现代 的 参数 初始 化 策略 通常 是 简单 并 且 带 有 试探 性 的 ， 就 目前 而 言 ， 神 经 网 络 的 优化 策 
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略 仍 然 没 有 充分 的 完善 ， 想 要 设计 优秀 的 初始 化 策略 是 一 件 非常 困难 的 工作 。 大 多 数 初始 化 
策略 都 是 基于 已 实现 网 络 的 某 些 优良 属性 , 但 我 们 并 不 知道 这 些 属 性 应 该 应 用 在 何 种 环境 中 。 

目前 ， 我 们 能 够 确定 的 一 种 性 质 是 在 不 同 的 神经 元 中 ， 应 该 尽量 避免 神经 元 参数 出 现 对 
称 情况 。 如 果 两 个 隐藏 单元 使 用 相同 的 激活 函数 ， 并 且 连 接 到 相同 的 输入 ， 那 么 每 个 神经 元 
必须 要 有 不 同 参数 。 因 为 参数 相同 ， 在 确定 的 学 习 算法 下 ， 其 参数 的 更 新 就 会 相同 ， 这 就 会 
出 现 神 经 元 元 余 的 情况 。 

在 初始 化 权重 参数 时 ， 我 们 几乎 都 采用 均匀 分 布 或 高 斯 分 布 的 随机 初始 化 方式 。 选 择 均 
匀 分 布 或 者 高 斯 分 布 没有 好 坏 之 分 ， 但 分 布 函数 的 取 值 范围 〈 标 准 差 ) 对 于 优化 过 程 以 及 泛 
化 能 力 却 有 着 巨大 的 影响 。 

较 大 的 初始 化 权重 范围 可 以 有 效 地 避免 参数 对 称 线性 ， 减 少 神经 元 元 余 现 象 ， 也 可 以 帮 
助 减 轻 训练 网 络 时 的 梯度 消失 问题 。 但 太 大 的 初始 化 权重 也 会 导致 梯度 爆炸 的 问题 ， 同 时 在 
- 些 使 用 诸如 Sigmoid 激活 函数 那样 的 神经 元 中 ， 也 容易 出 现 过 饱和 现象 ， 致 使 修改 神经 元 
梯度 几乎 为 零 。 

从 正则 化 以 及 最 优化 的 角度 出 发 ， 我 们 可 能 会 得 出 完全 不 同 的 参数 初始 化 策略 。 以 最 优 
化 的 观点 来 看 ， 权 重 应 该 足够 大 ， 这 样 才能 较 好 地 传递 信息 ; 但 从 正则 化 的 角度 出 发 ， 我 们 
却 希望 参数 越 小 越 好 。 由 于 神经 网 络 中 存在 局 部 最 优 和 鞍点 等 困难 ， 最 终 训 练 后 的 神经 网 络 
权重 会 非常 靠近 初始 化 时 的 权重 。 综 合 正则 化 要 求 以 及 训练 权重 接近 初始 化 权重 的 事实 ,我 
们 实际 上 是 在 权重 中 加 入 了 一 条 参数 均值 为 0 的 高 斯 分 布 先 验 知识 。 而 参数 尽 可 能 小 这 一 先 
验 知识 ， 其 实 也 就 是 所 谓 的 稀疏 性 原则 ， 即 神经 元 不 应 该 连接 到 全 部 神经 元 中 ， 而 是 应 该 连 
接 到 需要 连接 的 神经 元 中 。 

通常 情况 下 ， 在 m 输入 输出 的 单 层 神经 元 中 ， 我 们 可 以 使 用 均匀 分 布 将 权重 进行 随机 
采样 初始 化 ， 如 式 〈5.16) 所 示 。 








v, UC TT (5.16) 
也 可 以 如 式 (5.17) 所 示 ， 使 用 标准 初始 化 (Normalized Initialization) |"), 
6 6 
W,,-U-————,—— š 
UG Para) (5.17) 


需要 注意 的 是 ， 该 式 是 假设 神经 网 络 仅仅 进行 一 组 矩阵 链 式 相 乘 ， 并 不 进行 非 线性 转化 ， 
但 实际 的 神经 网 络 肯定 是 违背 了 这 种 假设 的 。 由 于 很 多 针对 线性 模型 设计 的 策略 ， 也 在 对 应 
的 非 线性 模型 中 表现 良好 ， 因 此 ， 这 种 方法 也 被 广泛 应 用 在 非 线性 神经 元 中 。 

在 具体 实践 中 ， 我 们 通常 要 将 参数 的 取 值 范围 设置 为 可 缩放 的 因子 ， 作 为 一 种 超 参数 通 
过 验证 集 来 调整 。 上 述 初始 化 的 一 个 缺点 在 于 所 有 初始 化 权重 都 会 具有 相同 的 标准 差 ， 当 每 
层 的 神经 元 数目 太 多 时 ， 神 经 元 的 权重 就 会 变 得 极其 的 小 ， 解 决 的 方式 是 一 种 被 称 为 稀疏 初 
始 化 〈Sparse Initialization) 0 的 策略 ， 该 方法 强制 每 个 神经 元 中 要 有 个 非 零 的 权重 。 稀 疏 
初始 化 可 以 在 神经 元 之 间 实 现 更 强 的 多 样 性 ， 但 也 施加 了 一 个 非常 强 的 先 验 在 权重 中 。 假 设 
权重 较 大 的 神经 元 恰好 是 需要 修正 的 神经 元 ， 那 可 能 需要 花费 很 长 的 时 间 来 缩小 误差 值 。 如 
果 计 算 资 源 允 许 ， 将 每 层 的 权重 的 标准 差 都 设置 成 一 个 超 参 数 是 不 错 的 选择 。 

上 述 的 初始 化 策略 ， 其 实 都 是 随机 的 初始 化 参数 ， 需 要 我 们 仔细 地 选择 参数 。 人 工 智能 
的 一 大 目标 就 是 尽 可 能 地 减少 人 为 参与 ， 那 么 将 参数 的 初始 化 当 作 是 机 器 学 习 任 务 去 学 习 又 
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如 何 呢 ? 其 中 非常 著名 的 策略 就 是 使 用 非 监督 学 习 方法 逐 层 地 学 习 深度 模型 的 参数 P9， 将 其 
作为 监督 学 习 模型 的 参数 初始 化 过 程 ， 这 是 深度 学 习 中 非常 重要 的 方法 ， 也 是 深度 学 习 研究 
的 主要 方向 之 一 。 


5.7 ”批量 归 一 化 


批量 归 一 化 (Batch Normalization) 07 并 不 能 算 作 是 一 种 最 优化 算法 ， 但 其 却 是 近年 来 优 
化 深度 神经 网 络 最 有 用 的 技巧 之 一 ， 并 且 这 种 方法 非常 的 简洁 方便 ， 可 以 和 其 他 算法 兼容 使 
用 ， 大 大 加 快 了 深度 模型 的 训练 时 间 。 


5.7.1 BN 算法 详解 


那 什么 是 批量 归 一 化 呢 ? 首先 ， 归 一 化 就 是 将 数据 的 输入 值 减 去 其 均值 然后 除 以 数据 的 
标准 差 ， 几 乎 所 有 数据 预 处 理 都 会 使 用 这 一 步骤 。 而 深度 学 习 也 可 以 认为 是 逐 层 特征 提取 的 
过 程 ， 那 每 一 层 的 输出 其 实 都 可 以 理解 为 经 过 特征 提取 后 的 数据 。 因 此 ， 批 量 归 一 化 方法 的 
“ 归 一 化 ”所 做 的 其 实 就 是 在 网 络 的 每 一 层 都 进行 数据 归 一 化 处 理 ， 但 每 一 层 对 所 有 数据 都 
进行 归 一 化 处 理 的 计算 开销 太 大 , 因此 就 和 使 用 最 小 批量 梯度 下 降 一 样 , 批量 归 一 化 中 的 “ 批 
量 ” 其 实 是 采样 一 小 批 数据 ， 然 后 对 该 批 数据 在 网 络 各 层 的 输出 进行 归 一 化 处 理 。 

假设 我 们 一 次 采样 m 条 数据 训练 ， 用 #3 表示 训练 第 k 条 数据 时 ， 第 j 层 的 第 i 神经 元 的 
输出 值 ，44j 表 示 这 批 数 据 在 第 j 层 的 第 神经 元 处 的 平均 输出 值 ，cav 表示 这 批 数据 在 第 jj ЈА 
的 第 神经 元 处 输出 值 的 标准 差 。 批 量 归 一 化 后 的 输出 值 就 如 式 〈5.18) 所 示 。 


Н® ц. 
HP -Tu ы. (5.18) 
о) 
其 中 神经 元 输出 的 均值 上 ,Щ (5.19) 所 示 。 
(5.19) 
(5.20) 





其 中 5 是 一 个 很 小 的 常数 ， 目 的 是 为 了 防止 Vo 的 产生 。 批 量 归 一 化 的 目的 其 实 很 简单 ， 
就 是 把 神经 网 络 每 一 层 的 输入 数据 都 调整 到 均值 为 零 ， 方 差 为 1 的 标准 正 态 分 布 。 那 为 什么 
这 样 做 呢 ? 

这 还 要 从 深度 神经 网 络 最 大 的 梦 麻 一 一 梯度 消失 讲 起 。 假 设 我 们 使 用 Sigmoid 作为 神经 
元 的 激活 函数 ， 当 输出 值 较 大 时 ，Sigmoid 函数 就 会 进入 饱和 区 域 ， 导 致 其 导数 几乎 为 零 ， 即 
使 我 们 知道 需要 矫正 该 神经 元 ， 也 会 因为 梯度 太 小 而 无 法 训练 。 如 图 5-6 所 示 ，Sigmoid 激活 
函数 在 [ -2, 2 ] 之 间 的 取 值 是 一 段 近似 线性 的 区 域 。 想 必 你 也 猜 到 了 吧 ， 其 实 BN 算法 所 做 的 
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就 是 把 输入 值 尽 可 能 地 归 一 化 在 激活 函数 这 一 狭窄 区 域 。 

但 这 又 引入 了 另 一 个 问题 , 我 们 知道 多 层 线性 神经 网 络 其 实 可 以 用 一 层 线 性 网 络 来 表示 ， 
那 我 们 使 用 BN 算法 将 输入 值 投射 到 激活 函数 的 线性 区 域 , 会 不 会 使 得 深度 网 络 能 力 下 降 呢 ? 
答案 是 肯定 的 ， 如 果 仅仅 是 归 一 化 各 层 和 输入 值 到 一 个 近似 的 线性 区 域 ， 我 们 的 深层 网 络 能 力 
将 大 大 降低 。 

















1 А А А 
2 


0 2 4 6 8 10 


FA 5-6 Sigmoid 激活 函数 与 线性 函数 比较 示意 图 


因此 , BN 算法 其 实 还 有 另 一 个 步骤 , 那 就 是 再 将 归 一 化 的 数据 放大 , 平移 回 非 线性 区 域 ， 
如 式 〈5.21) 所 示 , 我 们 引入 Y 和 两 个 可 学 习 参数 ， 调 整 归 一 化 的 输出 值 。 


(0 К 
Xr my HEB. (5.21) 


变量 YA p 是 允许 新 变量 有 任意 均值 和 标准 差 的 学 习 参 数 ， 这 似乎 不 合理 ， 为 什么 我 们 
将 均值 设 为 0， 然 后 又 引入 参数 允许 它 被 重 设 为 B 呢 ? 这 是 因为 新 的 参数 不 但 可 以 表示 有 旧 参 
数 的 非 线 性 能 力 ， 而 且 新 参数 还 可 以 消除 层 与 层 之 间 的 关联 ， 具 有 相对 独立 的 学 习 方 式 。 在 
旧 参 数 中 ,及 的 均值 和 方差 取决 于 万 下 层 中 参数 的 复杂 关联 。 在 新 参数 中 ，y- 太 +B 的 均值 与 
方差 仅仅 由 本 层 决 定 ， 新 参数 很 容易 通过 梯度 下 降 来 学 习 。 


e ”运行 时 平均 (running averages ) 


由 于 训练 时 我 们 仅仅 对 批量 采样 数据 进行 归 一 化 处 理 ， 该 批 数据 的 均值 和 方差 不 能 代表 
全 体 数 据 的 均值 和 方差 。 因 此 ， 我 们 需要 在 每 批 训练 数据 归 一 化 后 ， 味 积 其 均值 和 方差 。 当 
训练 完成 后 再 求 出 总 体 数据 的 均值 和 方差 ， 然 后 再 在 测试 时 使 用 ， 但 累积 每 一 次 数据 的 均值 
和 方差 太 过 麻烦 ,在 实践 中 ,我 们 经 常 使 用 运行 时 的 均值 和 方差 代替 全 体 数 据 的 均值 和 方差 。 
如 式 (5.22) 和 式 〈5.23) 所 示 ， 和 动量 学 习 法 类 似 ,我 们 引入 衰减 因子 对 均值 和 方差 进行 衰 





ш = есау:ш+(1 —Чесау) „у. (5:22) 
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o =decay : ø + (1 —decay)o,,,,, (5.23) 


5.7.2 BN 传播 详解 


BN 算法 的 思想 虽然 非常 简单 ,但 计算 过 程 也 比较 烦琐 , 我 们 在 编程 时 可 能 会 感到 手足 无 
措 。 接 下 来 ， 我 们 将 BN 算法 传播 过 程 拆 解 成 详细 的 计算 流 图 ， 希 望 能 在 你 编码 时 提供 帮助 。 
也 可 以 先 跳 过 本 部 分 内 容 ， 当 你 在 5.8.5 节 遇 到 困难 时 ， 再 回 过 头 仔细 地 阅读 该 节 。 

如 图 5-7 所 示 , 我 们 将 BN 算法 传播 过 程 拆 解 成 9 个 计算 步骤 , 每 个 步骤 仅 完 成 一 个 计算 
任务 ， 你 需要 保存 每 个 计算 步骤 的 中 间 结 果 ， 该 结果 会 在 反 向 传播 时 使 用 。 








零 均 值 处 理 归 一 化 处 理 缩放 平移 
T. va2 8. va3 9. out 
QU m ee e 


ye 














图 5-7 BN 传播 示意 图 
° BN 前 向 传播 


L РИЙ. mox 

2. 将 数据 平移 为 零 均值 :Ximt4 = x, - mu 
3. 计算 平方 项 ，carra = хти? 

4 ИЕШЕ: var= carre 

5. 计算 数据 标准 差 ， sqrvar= var à 


6. 计算 数据 标准 差 倒数 : invvar = 





sqrtvar 


7. 采样 数据 归 一 化 : va2, = хти, Xinvvar 
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8. 采样 数据 缩放 : va3, = gamma x va2, 


» 


采样 数据 平移 ，oxx = уаз, + beta 
BN 反 向 传播 
计算 beta 梯度 : dbeta= F doui, 


© 


计算 уаз 梯度 : dva, = дош, 


© 


计算 va2 梯度 : dva2, = gammaxdva3, 


计算 gamma 梯度 : dgamma = Y> va2, хауаз, 


isl 


计算 xmul 梯度 : dxmul, = invvar x dva2, 


= 


m 
计算 invvar 梯度 : dinvvar = Ути, xdva2, 
i=l 


计算 sqrtvar 梯度 : dsqrtvar = 1 5 Xdinvvar 
sqrtvar 





е 


tA 


. 计算 var 梯度 : dvar 20.5x(var-- 0) ^ xdsqrtvar 


> 


计算 carre 梯度 : dcarre, = 
m 


> 


计算 xmu2 梯度 : dxmu2, = 2xxmu, x dcarre, 


计算 xmu 梯度 : ахти, = demu I, + dxmu2, 


кә 


‚ 计算 xl 梯度 : dx] = demi 


计算 mu BUS. dmu = -> demu, 


L HE ORI. a= Pa, 
m 


58 深度 学 习 编码 实战 下 


在 本 章节 的 练习 中 ， 首 先 我 们 要 完成 Momentum、RMSProp 和 Adam 三 种 优化 方法 的 代 
码 编写 。 在 此 之 后 ， 我 们 将 重点 进行 BN 算法 的 前 向 传播 ， 反 向 传播 的 实现 。 最 后 ， 我 们 测 
试 BN 算法 的 性 能 ， 说 明 它 是 如 何 降低 参数 初始 化 时 标准 差 的 影响 来 加 快 网 络 的 训练 。 本 章 
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我 们 将 逐步 完成 以 下 操作 o 


编码 实现 Momentum 算法 ; 
编码 实现 RMSProp 算法 ; 
编码 实现 Adam 算法 ; 
编码 实现 BN 前 向 传播 ; 
编码 实现 BN 反 向 传播 ; 
编码 实现 BN 全 连接 网 络 。 


接 下 来 ， 打 开 “ 第 5 章 练习 -神经 网 络 下 .ipynb” 文 件 ， 进 入 本 章 练习 。 首 先是 我 们 已 经 
非常 熟悉 的 库 文 件 导 入 代码 模块 ， 本 章 的 练习 文件 全 部 存放 在 “DLAction/ classifiers 
/classifiers/chapter5” 目 录 下 。 











导入 库 文件 与 数据 : 





# -*- coding: utf-8 -*- 
import time 
import numpy as np 
import matplotlib.pyplot as plt 
from classifiers.chapter5 import * 
from utils import * 
%matplotlib inline 
plt.rcParams[ 'figure.figsize' ] = ( 10.0, 8.0 ) 
plt.rcParams[ 'image.interpolation' ] = 'nearest 
plt.rcParams[ 'image.cmap' ] = 'gray 
"оаа ext autoreload 
%autoreload 2 
def rel error (x, у): 
retum np.max( np.abs( x — y )/ ( np.maximum( le-8, np.abs( х ) + np.abs( y ) ) ) ) 
data = get CIFARIO data( ) 
for k, v in data.iteritems( ) : 


print '%s: ' % k, v.shape 








5.8.1 


Momentum 


接 下 来 ,打开 “DLAction/classifiers/chapter5/updater.py” 文 件 ， 完 成 sgd_momentum 函数 


4 编码 工作 。 我 们 使 用 momentum 参数 作为 动量 衰减 因子 ， 完 成 速度 的 计算 后 ， 需 要 将 其 保 
存在 config[ 'velocity' ] 中 。 








动量 更 新 函数 代码 模块 : 





def sgd_momentum( w, dw, config = None ) : 
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动量 随机 梯度 下 降 更 新 规则 。 

config 使 用 格式 : 

-leaming rate: 学 习 率 。 

- momentum: [0,1] 的 动量 衰减 因子 ，0 表示 不 使 用 动量 ， 即 退化 为 SGD. 
- velocity: 和 w, dw 形状 相同 的 速度 。 


if config is None: config = { } 

config.setdefault( 'learning_rate', 1e-2 ) 

config.setdefault( 'momentum', 0.9 ) 

v — config.setdefault( 'velocity', np.zeros like( w ) ) 

next w = None 

HE H HEH HE H HEH HHH H HHH HHH HH H HEHH HHHH HH HHH HHHH HHH HH H HHHH HHHH HH HHH HHHH H 
# 任务 : 实现 动量 更 新 。 # 
# 更 新 后 的 速度 存放 在 v 中 ， 更 新 后 的 权重 存放 在 next_w 中。 # 
HE H HEH HEH HH HH H HHH HHH HH H HHHH H HHH HH HHH HHHH HHH HH HHH HH HHHH HHH HH HHHH H 


JUBDHBEHHHHHUHHUHHHHHHHHBHBHBHHHHDHHHHHHHBHHBHHBHHHUHUE 
# 结束 编码 # 
hiii 


config[ 'velocity' ] = v 








return next. w, config 
实现 上 述 代码 块 后 ， 运 行 下 列 代码 进行 检验 ， 相 对 误差 应 该 小 于 le-8。 
动量 更 新 规则 代码 检验 : 





N,D=4,5 

w = np.linspace( -0.4, 0.6, num = N * D ).reshape( N, D ) 
dw = np.linspace( -0.6, 0.4, num = N * D ).reshape( N. D ) 
v = np.linspace( 0.6, 0.9, num = N * D ).reshape( N, D ) 


config = í 'learning rate': 1e-3, 'velocity': v } 


next w, -—sgd momentum( w, dw, config = config ) 
expected next w — np.asarray( [ 
[0.1406, 0.20738947, 0.27417895, 0.34096842, 0.40775789 ], 
[0.47454737, 0.54133684, 0.60812632, 0.67491579, 0.74170526 ], 
[0.80849474, 0.87528421, 0.94207368, 1.00886316, 1.07565263 ], 
[1.14244211, 1.20923158, 1.27602105, 1.34281053, 1.4096 11) 
expected_velocity = np.asarray( [ 
[0.5406, 0.55475789, 0.56891579, 0.58307368, 0.59723158 ], 
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[0.61138947, 0.62554737, 0.63970526， 0.65386316, 0.66802105 ], 
[0.68217895, 0.69633684, 0.71049474, 0.72465263, 0.73881053 ], 
[0.75296842, 0.76712632, 0.78128421, 0.79544211, 0.8096 11) 


print ' 更 新 权 
print ' 速 度 误 差 : ', rel. error( expected velocity, config[ velocity ] ) 








ЭЕ: ', rel error( next_w, expected_next_w ) 








momentum 正确 编码 后 的 检验 结果 : 
更 新 权重 误差 : 8.88234703351e-09 
速度 误差 : 4.26928774328e-09 




















当 实现 momentum 更 新 规则 后 ， 我 们 使 用 5 层 隐 藏 层 神经 网 络 进行 测试 ， 正 常情 况 下 ， 
加 入 动量 方法 后 会 比 原始 的 SGD 算法 收敛 得 更 快 一 些 。 这 两 种 算法 损失 函数 、 训 练 精度 和 验 
证 精度 比较 示意 图 分 别 如 图 5-8、 图 5-9 和 图 5-10 所 示 。 


Momentum 与 SGD 算法 比较 代码 块 : 





num train = 4000 
small data = í 
'X. train: data[ 'X. train' ] [ : num train ], 
'y_train': data[ 'у train' ] [ : num train ], 
'X. val': data[ "X. val' ], 
'y. val': data[ 'y_val' ], 
} 
trainers = { } 
for update_rule in [ 'sgd', 'sgd_momentum' ]: 
model = FullyConnectedNet( hidden dims =[ 100, 100, 100, 100, 100 ], 
weight scale = 7e-2 ) 
trainer = Trainer( model, small data, 
num epochs — 10, batch size — 100, 
update rule — update rule, 
updater config = í 'learning rate: Іе-3, }, 
verbose = False ) 
trainers[ update rule ] = trainer 
trainer.train( ) 
plt.subplot( 3, 1, 1 ) 
plt.title( "Training loss', fontsize = 18 ) 
plt.xlabel( 'Iteration', fontsize = 18 ) 
plt.ylabel( 'Loss', fontsize = 18 ) 
plt.subplot( 3, 1, 2 ) 
plt.title( "Training accuracy', fontsize — 18 ) 
plt.xlabel( 'Epoch', fontsize = 18 ) 
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plt.ylabel( 'Accuracy', fontsize = 18 ) 
plt.subplot( 3, 1, 3) 
pit.title( "Validation accuracy’, fontsize = 18 ) 
plt.xlabel( 'Epoch', fontsize = 18 ) 
plt.ylabel( 'Accuracy', fontsize = 18 ) 
plt.subplots adjust( left — 0.08, right — 0.95, wspace — 0.25, hspace — 0.25 ) 
a = {'sgd': 'o','sgd momentum": '*' } 
for update rule, trainer in trainers.iteritems( ): 
plt.subplot(3, 1, 1) 
plt.plot( trainer.loss history, a[update rule], label — update rule ) 
plt.subplot(3, 1,2 ) 
plt.plot( trainer.train acc history, '-'+a[ update rule ], label = update rule ) 
plt.subplot( 3, 1, 3) 
plt.plot( trainer.val acc history, '-'+a[ update rule ], label = update rule ) 
foriin[1,2,3]: 
plt.subplot( 3, 1, i) 
plt.legend( loc = 'upper center’, ncol = 4 ) 
plt.gcf( ).set size inches( 15, 15 ) 








plt.show( ) 


Training loss 


e e sod + + sgd momentum 


























Iteration 


图 5-8 SGD 与 Momentum 损失 函数 比较 示意 图 


Training accuracy 























ee syd = syd momentum 
Ss DEI 
ee 
> ——— rip 2o 
o o 一 
Ë 
= 一 
š — SCR 
— 
P g в 10 





Epoch 
5-9 SGD 45 Momentum 训练 精度 比较 示意 图 
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Validation accuracy 


e e sod ++ sgd momentum — 
= = — ==” < 














o 2 + ° П ло 


Epoch 
5-10 SGD 与 Momentum 验证 精度 比较 示意 图 


由 图 5-8 至 图 5-10 可 以 看 出 ， 动 量 学 习 法 的 收敛 速度 更 快 ， 加 快 了 网 络 的 训练 效率 。 
此 在 使 用 SGD 时 ， 加 入 动量 的 更 新 方式 是 比较 好 的 选择 。 





Ë: 


5.8.2 RMSProp 


接 下 来 我 们 编码 实现 RMSProp 的 更 新 算法 。 我 们 使 用 config ‘cache’ ] 保 存 历史 积累 梯度 ， 
使 用 config[ 'decay_rate' ] 计 算 梯 度 衰减 ， 并 且 别 忘 了 加 入 config[ 'epsilon' ] 防 止 溢出 。 


RMSProp 更 新 规则 代码 块 : 
def rmsprop(w, dw, config= None ) : 
RMSProp 更 新 规则 。 
config 使 用 格式 : 
- learning rate: 学 习 率 。 
- decay _rate: 历 史 累积 梯度 衰减 率 因子 ， 取 值 为 [ 0, 1 ] 。 
- epsilon: 避免 溢出 的 小 数 。 
- cache: 历 史 梯度 缓存 。 
if config is None: config = í } 
config.setdefault( "learning rate', 1e-2 ) 
config.setdefault( 'decay rate', 0.99 ) 
config.setdefault( 'epsilon', 1e-8 ) 
config.setdefault( 'cache', np.zeros like( w ) ) 
next w = None 
HERE EAE AEE HE HAE HH HH HHHH HHH HHH HH HHH HH HHHH HHH HHH HHH HHH HH H HHHH H 
# 任务 : 实现 RMSProp 更 新 。 # 
# 将 更 新 后 的 权重 保存 在 next_w 中 ， 将 历史 梯度 累积 存放 在 config[ "cache' ] 中 。 # 
EERE EEE H A H H H H HH H HHH HH H HRH HH H HHHH H HHH HH H HH HHH H HHH HHH HHHH H 








EEH HEHEHEH HEH HEHHEHE HH HH HH H H HHHH 
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# 结束 编码 # 
JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHRBHRHEE 


return next w, config 





完成 RMSProp 算法 的 编码 后 ， 使 用 下 列 代码 进行 检验 ， 实 现 的 相对 误差 应 该 小 于 le-7。 


RMSProp 更 新 函数 代码 检验 块 : 
# 测试 RMSProp ;相对 误差 应 该 小 于 le-7。 
N,D=4,5 








w = np.linspace( -0.4, 0.6, num = N * D ).reshape( N, D ) 
dw = np.linspace( -0.6, 0.4, num = N * D ).reshape( ЇЧ, D ) 





cache = np.linspace( 0.6, 0.9, num = N * D ).reshape( N, D ) 

config = { "learning rate': le-2, 'cache': cache } 

next w, _ = rmsprop( w, dw, config = config ) 

expected next w = np.asarray( [ 

-0.39223849, -0.34037513, -0.28849239, -0.23659121, -0.18467247 ], 
-0.132737, -0.08078555, -0.02881884, 0.02316247, 0.07515774], 
0.12716641, 0.17918792, 0.23122175, 0.28326742, 0.33532447 J, 
0.38739248, 0.43947102, 0.49155973, 0.54365823, 0.59576619 ] ] ) 
expected cache = np.asarray( [ 

0.5976, 0.6126277, 0.6277108, 0.64284931, 0.65804321 ], 
0.67329252, 0.68859723, 0.70395734, 0.71937285, 0.73484377 ], 
0.75037008, 0.7659518, 0.78158892, 0.79728144, 0.81302936 ], 
0.82883269, 0.84469141, 0.86060554, 0.87657507, 0.8926 1D 
print ' 权 重 更 新 误差 : ', rel. error( expected next. w, next w ) 


print'cache 误差 : ', rel error( expected cache, config[ 'cache' ] ) 





RMSProp 正确 编码 后 的 测试 结果 : 
权重 更 新 误差 : 9.50264522989e-08 
cache 误差 : 2.64779558072e-09 

















5.8.3 Adam 


接 下 来 我 们 实现 Adam 更 新 算法 ,需要 将 累积 梯度 、 累 积 梯度 平方 ,分 别 保存 在 config[ 'm' ] 
和 config[ 'v' ] 中 ， 还 要 加 入 config[ 'epsilon' ] 项 ， 防 止 除 零 。 我 们 实现 的 是 “初始 加 速 ” 版 本 ， 
因此 还 需要 保存 迭代 次 数 。 





Adam 更 新 函数 代码 块 : 
def adam(w, dw, config = None ) : 


"m 
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使 用 Adam 更 新 规则 ， 融 合 了 “热身 ”更 新 操作 。 


config 使 用 格式 : 

- learning rate: 学 习 率 。 

- betal: 动量 衰减 因子 。 

- beta2: 学 习 率 衰减 因子 。 

- epsilon: 防除 0 小 数 。 

-m: 梯度 。 

- v: 梯度 平方 。 

-t ARK. 

if config is None: config = { } 
config.setdefault( 'learning_rate’, 1e-3 ) 
config.setdefault( 'betal', 0.9 ) 
config.setdefault( 'beta2', 0.999 ) 
config.setdefault( 'epsilon', 1e-8 ) 


config.setdefault( 'm', np.zeros like( w ) ) 


config.setdefault( 'v', np.zeros like( w ) ) 


config.setdefault( t, 0 ) 


next w = None 
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A E E H E E E E E H 


# 任务 : 实现 Adam 更 新 。 


# 


# ”将 更 新 后 的 权重 存放 在 next_w 中 ， 记 得 将 m、v 和 + 存放 在 相应 的 config 中。 # 
hiiia 


TIHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHRE 


# 结束 编码 


# 


THBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHEE 


return next уу, config 





完成 Adam 函数 的 编码 后 ， 我 们 使 用 下 列 代码 块 进行 验证 。 


Adam 函数 代码 检验 块 : 








N,D-4,5 


w = np.linspace( -0.4, 0.6, num = N * D ).reshape( N, D ) 
dw = np.linspace( -0.6, 0.4, num = N * D ).reshape( N, D ) 
m = np.linspace( 0.6, 0.9, num = N * D ).reshape( N, D ) 
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v = np.linspace( 0.7, 0.5, num = N * D ).reshape( N, D ) 

config = { ‘learning rate’: le-2, 'm': т, 'v': v, t: 5 } 

next w, _ = adam( w, dw, config = config ) 

expected next w = np.asarray( [ 

-0.40094747, -0.348361 87, -0.29577703, -0.24319299, -0.19060977 ], 
-0.1380274, -0.08544591, -0.03286534, 0.01971428, 0.0722929 ], 
0.1248705, 0.17744702, 0.23002243, 0.28259667, 0.33516969 ], 
0.38774145, 0.44031188, 0.49288093, 0.54544852, 0.59801459]]) 
expected v = np.asarray( [ 

0.69966, 0.68908382, 0.67851319, 0.66794809, 0.65738853, ], 
0.64683452, 0.63628604, 0.6257431, 0.61520571, 0.60467385,], 
0.59414753, 0.58362676, 0.57311152, 0.56260183, 0.55209767, ], 
0.54159906, 0.53110598, 0.52061845, 0.51013645, 0.49966, ]]) 
expected т = пр.аѕаггау( [ 

0.48, 0.49947368, 0.51894737, 0.53842105, 0.55789474 ], 
0.57736842, 0.59684211, 0.61631579, 0.63578947, 0.65526316 ], 
0.67473684, 0.69421053, 0.71368421, 0.73315789, 0.75263158 ], 
0.77210526, 0.79157895, 0.81105263, 0.83052632, 0.85 11) 
print 权重 更 新 误差 : ', rel_error( expected_next_w, next_w ) 





print 'v 误差 : ', rel_error( expected v, config[ 'v' ] ) 








print 'm 误差 : ', rel_error( expected_m, config[ 'm' ] ) 





E 确 编码 Adam 算法 的 检验 结果 : 
权重 更 新 误差 : 1.13956917985е-07 


у 误差 : 4.20831403811e-09 
m 误差 : 4.21496319311e-09 





5.8.4 更 新 规则 比较 


接 下 来 ， 我 们 比较 测试 SGD. Momentum. RMSProp 及 Айат. Н Т SGD #1 Momentum 
已 经 在 trainers 字典 中 了 ， 我 们 只 需要 实例 化 RMSProp 及 Adam 网 络 即 可 。 但 在 此 之 前 ， 请 
确保 已 经 运行 了 SGD 与 Momentum 的 比较 代码 块 , 图 5-11. Ё] 5-12 与 图 5-13 分 别 为 这 4 种 
算法 的 损失 函数 、 训 练 精度 与 验证 精度 比较 示意 图 。 


SGD, momentum, RMSProp, Adam 比较 代码 块 : 








learning rates = í 'rmsprop': le-4, 'adam': 1е-3 } 
for update rule in [ 'adam', rmsprop' ]: 
model = FullyConnectedNet( hidden dims = [ 100, 100, 100, 100, 100 ], weight scale = 7e-2 ) 


trainer — Trainer( model, small data, 
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num_epochs = 10, batch_size = 100, 
update_rule = update_rule, 
updater_config = { 
‘learning_rate': learning rates[ update гше ] 
h 
verbose = False ) 
trainers[ update_rule ] = trainer 
trainer.train( ) 
plt.subplot( 3, 1, 1 ) 
plt.title( "Training loss', fontsize = 18 ) 
plt.xlabel( ‘Iteration’, fontsize = 18 ) 
plt.ylabel( 'Loss',fontsize = 18 ) 
plt.subplot( 3, 1, 2 ) 
plt.title( "Training accuracy', fontsize — 18 ) 
plt.xlabel( 'Epoch', fontsize — 18 ) 
plt.ylabel( 'Accuracy', fontsize = 18 ) 
plt.subplot( 3, 1, 3 ) 
plt.title( 'Validation accuracy’, fontsize = 18 ) 
plt.xlabel( 'Epoch', fontsize = 18 ) 
plt.ylabel( 'Accuracy', fontsize = 18 ) 
plt.subplots adjust( left = 0.08, right = 0.95, wspace = 0.25, hspace = 0.25 ) 
a[ ‘adam! ] ='D' 
a[ 'rmsprop' ] = 'v' 
for update_rule, trainer in trainers.iteritems( ): 
plt.subplot( 3, 1, 1 ) 
plt.plot( trainer.loss history, а[ update rule ], label = update rule ) 
plt.subplot( 3, 1, 2 ) 
plt.plot( trainer.train acc history, '-'+a[ update rule ], label = update rule ) 
plt.subplot(3, 1, 3) 
plt.plot( trainer.val acc history, '-'+a[ update rule ], label = update rule ) 
foriin[1,2,3]: 
plt.subplot( 3, 1, 1) 
plt.legend( loc = 'upper center’, ncol = 4 ) 
plt.gcf().set size inches( 15, 15 ) 
plt.show( ) 
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Training loss 











wmsprop 9$ Ф adam ө ө sod ++ sgd momentum 
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5-12 4 种 算法 训练 精度 比较 示意 图 


Validation accuracy 











тт rmsprop ФФ adam ee sgd + « sgd momentum 














035 —— 
s = 
— +... — = 
> 030 -一 一 一 一 = REY 
© Le —-— ` + 
5 о uU E ее у 一 
Š om 
5 020 — а= 
_ — 
a — 








Epoch 
В 5-13 4 种 算法 验证 精度 比较 示意 图 
从 图 5-11 至 图 5-13 可 以 看 出 ，Adam 算法 的 收敛 效果 普遍 要 比 其 他 三 种 更 新 方式 要 快速 
高 效 些 。 因 此 在 默认 情况 下 ， 我 们 都 比较 推荐 使 用 Adam 算法 进行 网 络 优化 。 


5.8.5 BN 前 向 传播 
由 于 该 部 分 内 容 公 式 比较 多 ， 稍 有 不 慎 就 会 弄 蜡 自己 。 如 果 你 没有 任何 思路 下 手 ， 可 以 
翻 看 5.7.2 节 中 关于 BN 算法 详细 的 推导 过 程 ， 我 们 将 BN 算法 拆 解 为 9 个 子 计算 步骤 ， 你 只 


需要 依次 编码 即 可 。 接 下 来 ， 打 开 “DLAction/classifiers /chapter5/bn_layers.py” 文 件 ， 实 现 
batchnorm forward 函数 ， 执 行 BN 算法 的 前 向 传播 过 程 。 


batchnorm_forward 函数 代码 块 : 
def batchnorm forward ( x, gamma, beta, bn param ) : 
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使 用 类 似 动量 衰减 的 运行 时 平均 ， 计 算 总 体 均值 与 方差 例如 : 


running mean = momentum * running mean +(1 一 momentum ) * sample mean 


running var = momentum * running var + ( 1 — momentum ) * sample var 
Input: 
-x: 数据 (N,D )。 
- gamma: 缩放 参数 ( D. ). 
- beta: 平移 参数 ( D. ). 
-bn param: 字典 型 ， 使 用 下 列 键 值 : 
- mode: 'train' 或 'test'。 
- eps: 保证 数值 稳定 。 
- momentum: 运行 时 平均 衰减 因子 。 
- running_mean: 形状 为 ( D, ) 的 运行 时 均值 。 
-running var: 形状 为 ( D, ) 的 运行 时 方差 。 
Returns 元 组 : 
-out 输出 (N,D )。 
- cache: 用 于 反 向 传播 的 缓存 。 
mode = bn_param[ 'mode' ] 
eps = bn param.get( 'eps', le-5 ) 
momentum = bn param.get( 'momentum', 0.9 ) 
N, D = x.shape 
running mean = bn param.get( 'running mean', np.zeros( D, dtype = x.dtype ) ) 
running уаг = bn param.get( running var, np.zeros( D, dtype = x.dtype ) ) 
out, cache = None, None 
if mode == 'train': 
THHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHNE 
# 任务 : 实现 训练 阶段 BN 的 前 向 传播 。 
# 首先 ， 你 需要 计算 输入 数据 的 均值 和 方差 ; 
# 然后 ， 使 用 均值 和 方差 将 数据 进行 归 一 化 处 理 ; 
# 之 后 ， 使 用 gamma 和 beta 参数 将 数据 进行 缩放 和 平移 ; 
# 最 后 ， 将 该 批 数据 均值 和 方差 添加 到 累积 均值 和 方差 中 ; 
# 注意 : 将 反 向 传播 时 所 需 的 所 有 中 间 值 保存 在 cache 中 。 
GHBHHHHHHHHHHHHHHBHHHHHHHHHHHHHHBHHHHBHHHHHBHHHHHBHHHHHBHHHHRHHHE 


Ж ako ap ош Ë 
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THHHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 结束 编码 # 
THHHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
elif mode == 'test': 
THHHHHHHBHHBHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBRHE 


# 任务 : 实现 测试 阶段 BN 的 前 向 传播 。 # 
# 首先 ， 使 用 运行 时 均值 与 方差 归 一 化 数据 ， # 
# 然后 ， 使 用 gamma 和 beta 参数 缩放 ， 平 移 数据 。 # 


HHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHE 


HHH H HH H HHH HH H HHHH H HH HH BHHHBHHHRHHBHHBHHBHHHHHHBHHBHER 
# 结束 编码 # 
AHHH HHH HHH AEE HHHH HH HHH HHHH HHH HH HHHH HHHH HHH HH a HH HHH HHHH 
else: 
raise ValueError( ' 无 法 识别 的 BN 模式 : "905" % mode ) 
# 更 新 运行 时 均值 ， 方 差 。 
bn param['running mean']- running mean 


bn param['running var ] = running var 








return out, cache 


完成 上 述 代码 后 ， 我 们 使 用 下 列 代码 检验 已 实现 的 BN 前 向 传播 。 BN 处 理 后 均值 应 该 接 
近 于 0， 标 准 差 应 该 接近 于 1。 再 经 过 gamma 和 beta 的 缩放 与 平移 后 ,均值 应 该 接近 于 beta, 
标准 差 应 该 接近 于 gamma. 


训练 阶段 ，BN 前 向 传播 的 均值 与 标准 差 检 验 代码 块 : 
# 检验 BN 训练 阶段 前 向 传播 的 均值 和 标准 差 。 

N, D1, D2, D3 = 200, 50, 60, 3 

X = np.random.randn( N. D1 ) 

WI 7 np.random.randn( D1, D2 ) 

W2 = np.random.randn( D2, D3 ) 

a=np.maximum( 0, X.dot( W1 ) ).dot( W2 ) 


print "normalization 之 前 : 





print' means: ', a.mean( axis = 0 ) 

print' stds: ', a.std( axis = 0 ) 

# 均值 应 该 接近 零 ， 标 准 差 接近 1. 

print 'batch normalization 之 后 ( gamma = 1, beta = 0 )' 
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a norm, = batchnorm forward( a, np.ones( D3 ), np.zeros( D3 ), { mode': 'train' } ) 
print' mean: ', a_norm.mean( axis = 0 ) 

print' std: ', a_norm.std( axis = 0 ) 

# 均值 应 该 接近 beta， 标 准 差 接 近 gamma. 

gamma = np.asarray( [ 1.0, 2.0, 3.0] ) 

beta = np.asarray( [ 11.0, 12.0, 13.0] ) 

a norm, _ = batchnorm forward( a, gamma, beta, í 'mode': 'train' } ) 

print ' batch normalization 之 后 ( 随机 gamma, beta )' 


print' means: ', а погт.теап( axis = 0 ) 





print' stds: ', a_norm.std( axis = 0 ) 








正确 编码 后 的 执行 结果 : 
normalization 之 前 : 
means: [10.04031787 11.64030966 -20.10740986 ] 
stds: [ 27.88819957 39.07733242 35.78698193] 
batch normalization 之 后 ( gamma = 1, beta = 0 ) 
mean: [-6.88338275e-17 -1.09426357e-16 — 1.08142661e-16 ] 





std: [0.99999999 1. 1. ] 
batch normalization 之 后 ( 随机 gamma, beta ) 
means: [11. 12. 13.] 





stds: [0.99999999 1.99999999 2.99999999 | 


接 下 来 ， 我 们 验证 BN 算法 测试 模式 时 的 代码 。 需 要 注意 ， 由 于 我 们 使 用 运行 时 平均 ， 


姑 此 需要 训练 一 段 时 间 后 ， 运 行 结果 才 会 稳定 。 
测试 阶段 ，BN 算法 前 向 传播 检验 代码 块 : 
# 检验 测试 阶段 前 向 传播 。 
# 注意 : 需要 训练 一 段 时 间 后 ， 运 行 时 均值 才 会 稳定 。 
N, D1, D2, D3 = 200, 50, 60, 3 
WI 7 np.random.randn( D1, D2 ) 
W2 = np.random.randn( D2, D3 ) 
bn param = { 'mode': Чгаіп' } 
gamma = np.ones( D3 ) 
beta = np.zeros( D3 ) 
for t in xrange( 50) : 
X = np.random.randn( N, D1 ) 
a=np.maximum( 0, X.dot( W1 ) ).dot( W2 ) 
batchnorm_forward( a, gamma, beta, bn_param ) 
bn param[ 'mode' | = 'test' 





X = np.random.randn( N, D1 ) 
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a=np.maximum( 0, X.dot( W1 ) ).dot( W2 ) 

a norm, _ = batchnorm forward( a, gamma, beta, bn param ) 

5 均值 应 该 接近 0， 标 准 差 接近 1。 由 于 使 用 运行 时 均值 ， 可 能 会 带 有 一 点 噪声 。 
print 'batch normalization 之 后 ( 测试 阶段 ): 


print' теапѕ:', а погт.теап( axis = 0 ) 


print' stds:',a norm.std( axis =0 ) 








测试 模式 时 的 BN 算法 检验 结果 : 





batch normalization 之 后 ( 测试 阶段 ): 


means: [ 0.22538848 -0.04480854 -0.0726637] 
stds: [0.96726806 1.06688483  0.93590139] 








5.8.6 BN 反 向 传播 


接 下 来 完成 BN 算法 的 反 向 传播 ， 可 能 需要 用 到 前 向 传播 时 中 间 结 果 的 所 有 缓存 。 静 下 
心 来 慢 慢 理 顺 该 部 分 内 容 ， 如 果 完 成 了 记得 给 自己 一 顿 奖 赏 。 


batchnorm_backward 函数 代码 块 : 

def batchnorm_backward(dout, cache): 
BN 反 向 传播 。 
Inputs: 
- dout: 上 层 梯度 (N, D )。 
- cache: 前 向 传播 时 的 缓存 。 
Returns 元 组 : 
- dx: 数据 梯度 ( N, D )。 
- dgamma: gamma 梯度 ( D, ). 
- dbeta: beta 梯度 ( D. )。 
dx, dgamma, dbeta = None, None, None 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHRHHHHER 
# 任务 : 实现 BN 反 向 传播 。 # 
# 将 结果 分 别 保存 在 dx, dgamma, dbeta 中 。 # 
‘EEE HE AEE EAE AEE HHHH HH HHH HHHH HH HHH HH HHHH HHH HHH HH HHHH HHH HHHH H HHHH 


THBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHBHHHHHHE 
# 结束 编码 # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 








return dx, dgamma, dbeta 
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完成 上 述 代码 后 ， 使 用 下 列 代码 检验 BN 反 向 传播 梯度 。 


检验 BN 反 向 传播 梯度 代码 块 : 

# 检验 BN 反 向 传播 梯度 。 
N,D=4,5 

x = 5 * np.random.randn( №, D )+ 12 








gamma = np.random.randn( D ) 

beta = np.random.randn( D ) 

dout = np.random.randn( №, D ) 

bn param = { 'mode': 'train' } 

fx = lambda x: batchnorm forward( x, gamma, beta, bn param )[ 0 ] 
fg = lambda a: batchnorm_forward( x, gamma, beta, bn param )[ 0] 
fb = lambda b: batchnorm forward( x, gamma, beta, bn param )[ 0 ] 
dx пит = eval numerical gradient array( fx, x, dout ) 

da num = eval numerical gradient array( fg, gamma, dout ) 

db num = eval numerical gradient array( fb, beta, dout ) 

_, cache = batchnorm forward( x, gamma, beta, bn param ) 

dx, dgamma, dbeta = batchnorm_backward( dout, cache ) 

print'dx 误差 : ' rel. error( dx. num, dx ) 


print 'dgamma 误差 : ', rel error( da num, dgamma ) 


print'dbeta 误差 : ', rel error( db. num, dbeta ) 





正确 编码 后 的 检验 结果 : 

dx 误差 : 2.70249386048e-09 
dgamma 误差 : 1.84440012476e-11 
dbeta 误差 : 8.31301927287e-12 








° BN 反 向 传播 (AX) 


之 前 的 内 容 中 ， 我 们 将 BN 算法 的 反 向 传播 过 程 拆 解 为 很 多 个 中 间 值 ， 这 样 做 逻辑 很 清 
晰 ， 但 大 大 地 降低 了 执行 效率 。 接 下 来 ， 我 们 直接 使 用 推导 公式 计算 dx， 你 可 以 自己 手动 推 
SP BN 的 反 向 传播 ， 然 后 比较 下 两 者 的 执行 效率 。 这 部 分 代码 已 经 编写 好 了 ， 阅 读 下 面 代 
码 直接 使 用 即 可 。 





batchnorm_backward_alt 函数 代码 块 : 





def batchnorm_backward_alt( dout, cache ) : 


可 选 的 BN 反 向 传播 。 


dx, dgamma, dbeta = None, None, None 





mu, xmu, carre, var, sqrtvar, invvar, va2, va3, gamma, beta, x, bn_param = cache 
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eps = bn param.get( 'eps', le-5 ) 

N, D = dout.shape 

dbeta — np.sum( dout, axis — 0 ) 

dgamma = np.sum( ( x — mu ) * ( var + eps )**( -1./2. ) * dout, axis = 0 ) 
dx = ( 1./ N ) * gamma * ( var + eps )**( -1./2.) * ( N * dout - np.sum( 


dout, axis = 0) -( x — mu ) * ( var + eps )**( -1.0 ) * np.sum( dout * ( x -mu ), axis = 0 ) ) 





return dx, dgamma, dbeta 





公式 法 BN 反 向 传播 测试 代码 块 : 
N,D = 100, 500 
x = 5 * np.random.randn( N, D ) + 12 





gamma = np.random.randn( D ) 

beta = np.random.randn( D ) 

dout = np.random.randn( N, D ) 

bn param = { 'mode': 'train' } 

out, cache = batchnorm_forward( x, gamma, beta, bn_param ) 
tl =time.time( ) 

dx1, dgammal, dbetal = batchnorm_backward( dout, cache ) 
t2 = time.time( ) 

dx2, dgamma2, dbeta2 = batchnorm_backward_alt( dout, cache ) 
t3 = time.time( ) 

print 'dx 3x25: ', rel. error( dx1, dx2 ) 

print 'dgamma 128: ', rel_error( dgammal, dgamma2 ) 

print 'dbeta 误差 : ', rel_error( dbetal, dbeta2 ) 

print ' 加 速 : %.2fx' % ( (2 - tl )/(t3 - 2 )) 


正确 编码 后 的 执行 结果 : 

dx 误差 : 2.50238754792e-12 
dgamma 误差 : 4.06951863454e-14 
dbeta 误差 : 0.0 

加 速 : 3.00x 

















5.8.7 ”使 用 BN 的 全 连接 网 络 


BERR, FFF “DLAction/classifiers/chapterS/fe_net.py” Ж/Е, SCHL BN 算法 的 全 连接 网 
络 。 现 在 我 们 的 网 络 将 有 以 下 4 种 选择 。 


e REDER; 
° ”全 连接 +dropout; 
° ”全 连接 +BN; 
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e ”全 连接 +BN+dropout。 


可 以 先 实现 affine BN relu 函数 和 affine BN_relu_drop 函数 ， 这 样 有 利于 降低 编码 复杂 
度 。 





网 络 初始 化 代码 块 : 
def init (self, input dim = 3 * 32 * 32, hidden dims-[ 100 ], num classes = 10, 
dropout = 0, use batchnorm = False, reg = 0.0, 





weight scale = le-2, seed = None ) : 
初始 化 全 连接 网 络 。 
Inputs: 
- input_dim: 输入 维度 。 
-hidden dims: 隐藏 层 各 层 维度 向 量 ， 如 [ 100,100 ] 。 
- num_classes: 分 类 个 数 。 
- dropout: 如 果 dropout = 0， 表 示 不 使 用 dropout。 
-use batchnorm: 布尔 型 ， 表 示 是 否 使 用 BN. 
- reg: 正 则 化 衰减 因子 。 
- weight_scale: 权 重 初始 化 范围 ， 标 准 差 。 
- seed: 使 用 seed 产生 相同 的 随机 数 。 
self.use_batchnorm = use_batchnorm 
self.use_dropout = dropout > 0 
self.reg = reg 
self.num layers = 1 + len( hidden dims ) 
self.params = { } 
‘AE AEE EAE HE EEE EEE HE HH HHH H HHHH HHHH HR HHH HHHH HRH HHH HHHH HHHH HHRHH HHHH HR HHHHH 


# 任务 : 初始 化 网 络 参 数 。 # 
# 权重 参数 初始 化 和 前 面 章节 类 似 ， # 
# 针对 每 一 层 神经 元 都 要 初始 化 对 应 的 gamma 和 beta. # 
# du: 第 一 层 使 用 gammal, betal, 286 —/z gamma2, beta2, # 
# gamma 初始 化 为 1，beta 初始 化 为 0。 # 


THBHHHHHHHHHHHBHHHBHHHHBHHBHHBHHHHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHRHHE 


THHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHRE 
# 结束 编码 # 
THHHHHHHHHHHBHHHHHBHHHHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHE 
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self.dropout_param = { } 
if self.use_dropout: 
self.dropout param = í 'mode': 'train', 'p': dropout } 
if seed is not None: 
self.dropout param[ 'seed' ] = seed 
self.bn_params = [ ] 


if self.use_batchnorm: 








self.bn_params = [ í 'mode': 'train' } for i in xrange( self.num layers — 1 ) ] 








损失 函数 代码 块 : 





def loss(self, X, y=None): 
# 设置 执行 模式 。 
mode = 'test' if y is None else 'train' 
if self.dropout_param is not None: 
self.dropout param[ 'mode' ] = mode 
if self.use_batchnorm: 
for bn_param in self.bn_params: 
bn param[ mode ] = mode 
scores = None 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHHHNNE 
# 任务 : 执行 全 连接 网 络 的 前 馈 过 程 。 
# 计算 数据 的 分 类 得 分 ， 将 结果 保存 在 scores 中 。 
# EH] dropout 时 ， 需 要 使 用 self.dropout_param 17 dropout 前 馈 。 
# 
# 


ж о ж 3b ош 


当 使 用 BN 时 ，self.bn_params[0] 传 到 第 一 层 ， 
self.bn_params[1] 传 到 第 二 层 。 # 
‘EEE HE HEHEHE HE HERE EE HHHH HH HHH HHHH HRH HHHH NE 


THBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHE 


# 结束 编码 # 
H H H H HH H H HH H HH HHH HH HHH HHH HHH HHA HHA H HA HHH HH HH HHH HHH HHH 
if mode = 'test': 


return scores 
loss, grads = 0.0, { } 
H HH H HHHH HH H H H H H H H HH H H H HH H HH H HA HH HH H H H HHH HHHH 
# 任务 : 实现 全 连接 网 络 的 反 向 传播 。 # 
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# 将 损失 值 存储 在 loss 中 ， 梯 度 值 存储 在 grads 字典 中 。 # 
# 当 使 用 dropout 时 ， 需 要 求解 dropout 梯度 。 # 
# 当 使 用 BN 时 ， 需 要 求解 BN 梯度 。 # 
RH HHHH HHHH HHH HH HHHH HH HHH HH HHH Susa 








THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHBHHHRHEHHHHHBHHHHRBHBHHBHHHRRBHHNE 
# 结束 编码 # 
‘EEE HE HEE EEE HHRHH HHHH SEE Sua 


return loss, grads 


BN 全 连接 网 络 验证 代码 块 : 
N, D, НІ, H2, C =2, 15, 20, 30, 10 
X = np.random.randn( N, D ) 
y = np.random.randint( C, size = ( N. ) ) 
for reg in [ 0, 3.14 ]: 
print 检验 reg =', reg 
model = FullyConnectedNet( hidden dims = [ НІ, H2 ], input dim = D, num classes = C, 
reg = reg, weight scale = 5e-2, use batchnorm = True ) 
loss, grads = model.loss( X, y ) 
print' 初 始 化 loss: ', loss 
for name in sorted( grads ) : 
f = lambda _: model.loss( X, y )[ 0 ] 
grad num = eval numerical gradient( f, model.params[ name ], 
verbose = False, h= le-5 ) 
print '%s 相对 误差 : %.2e' % ( name, rel error(grad num, grads[ name ] ) ) 














无 权重 衰减 结果 : 有 权重 衰减 验证 结果 : 
检验 reg =0 检验 reg =3.14 

初始 化 loss: 2.35632 164622 初始 化 loss: 7.11059525798 
W1 相对 误差 : 2.53e-04 WI 相对 误差 : 1.26e-06 
W2 相对 误差 : 1.53e-05 W2 相对 误差 : 5.23e-07 
W3 相对 误差 : 3.80e-10 W3 相对 误差 : 7.31e-09 

bl 相对 误差 : 2.22e-03 bl 相对 误差 : 8.88e-07 

b2 相对 误差 : 6.27e-07 b2 相对 误差 : 5.77e-07 

b3 相对 误差 : 9.30e-11 b3 相对 误差 : 4.00e-10 
betal 相对 误差 : 8.16e-09 betal 相对 误差 : 8.38e-09 
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beta2 相对 误差 : 3.20e-09 beta2 相对 误差 : 4.07e-08 
gammal 相对 误差 : 1.11e-08 gammal 相对 误差 : 8.10e-09 
gamma2 相对 误差 : 2.67e-09 gamma2 相对 误差 : 3.72e-08 
接 下 来 ， 我 们 测试 加 入 BN 与 不 加 入 BN 对 于 网 络 的 影响 ， 运 行 下 列 代 码 。 图 5-14. EI 


5-15 与 图 5-16 分 别 为 加 入 BN 与 不 加 入 BN 两 种 算法 的 损失 函数 变化 、 训 练 精度 变化 和 验证 
精度 变化 对 比 示意 图 。 

使 用 BN 训练 深层 神经 网 络 代 码 块 : 

# 使 用 BN 训练 深层 神经 网 络 。 

hidden = [ 100, 100, 100, 100, 100 ] 


num_train = 1000 








small data = í 
"X_train': data[ 'X_train’ ][ : num train ], 
'y_train': data[ 'y_train' ][ : num train ], 
"X_val': data[ X_val ], 
'y_val': data[ 'y_val' ], 
} 
weight_scale = 2e-2 
bn_model = FullyConnectedNet( hidden_dims = hidden, 
weight_scale = weight_scale, use_batchnorm = True ) 
model = FullyConnectedNet( hidden_dims = hidden, 
weight_scale = weight_scale, use_batchnorm = False ) 
bn_trainer = Trainer( bn_model, small_data, 
num epochs = 10, batch size = 50, update rule = 'adam', 
updater config = { 'learning rate: le-3, }, 
verbose = True, print every = 200 ) 
bn trainer.train( ) 
trainer = Trainer( model, small data, 
num epochs = 10, batch size = 50, update rule = 'adam', 
updater config = { 'learning rate: le-3, }, 
verbose = True, print every = 200 ) 


trainer.train( ) 








可 视 化 结果 代码 块 : 
plt.subplots adjust( left = 0.08, right = 0.95, wspace = 0.25, hspace = 0.3 ) 
plt.subplot( 3, 1, 1 ) 





plt.title( "Training loss', fontsize = 18 ) 
plt.xlabel( Iteration’, fontsize = 18 ) 
plt.ylabel( 'Loss', fontsize = 18 ) 
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plt.subplot( 3, 1, 2 ) 
plt.title( "Training accuracy', fontsize — 18 ) 
plt.xlabel( 'Epoch', fontsize — 18 ) 
plt.ylabel( 'Accuracy', fontsize — 18 ) 
plt.subplot( 3, 1, 3 ) 
plt.title( "Validation accuracy', fontsize = 18 ) 
plt.xlabel( 'Epoch', fontsize — 18 ) 
plt.ylabel( 'Accuracy', fontsize — 18 ) 
plt.subplot( 3, 1, 1 ) 
plt.plot( trainer.loss history, '*', label = 'baseline' ) 
plt.plot( bn trainer.loss history, 'D', label = 'batchnorm' ) 
plt.subplot( 3, 1, 2 ) 
plt.plot( trainer.train acc history, '-*', label = 'baseline' ) 
plt.plot( bn trainer.train acc history, '-D', label = 'batchnorm' ) 
plt.subplot( 3, 1, 3 ) 
plt.plot( trainer.val acc history, '-*', label = 'baseline' ) 
plt.plot( bn trainer.val acc history, '-D', label — 'batchnorm' ) 
foriin[1,2,3]: 
plt.subplot( 3, 1,1) 
plt.legend( loc = "upper center’, ncol = 4 ) 
plt.gcf( ).set size inches( 15, 15 ) 
plt.show( ) 


Training loss 


"EN s жу 











В 5-14 BN 神经 网 络 与 标准 神经 网 络 损失 函数 变化 比较 示意 图 


Training accuracy 
*— baseline — *-* batchnorm = 26 
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В 5-15 BN 神经 网 络 与 标准 神经 网 络 训练 精度 变化 比较 示意 图 
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Validation accuracy 


*— baseline — Ф—Ф batchnorm 
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В 5-16 BN 神经 网 络 与 标准 神经 网 络 验证 精度 变化 比较 示意 图 
由 图 5-14 至 图 5-16 可 看 出 , BN 算法 加 快 了 网 络 的 训练 效率 , 并 且 拥 有 更 佳 的 验证 精度 。 


5.8.8 BN 算法 与 权重 标准 差 比较 


在 5.6 参数 初始 化 章节 中 ， 我 们 提 到 过 权重 参数 的 标准 差 ， 显 著 地 影响 着 网 络 的 训练 。 
在 本 小 节 中 ， 我 们 将 比较 不 同 权重 规模 下 BN 算法 如 何 提升 网 络 性 能 ， 并 且 BN 算法 还 大 大 
降低 了 不 同 权重 初始 化 所 带 来 的 影响 。 运 行 下 列 代码 块 ， 图 5-17、 图 5-18 与 图 5-19 分 别 为 
BN 算法 在 不 同 权 重 初始 化 情况 下 的 最 佳 验 证 精度 、 训 练 精度 和 损失 值 可 视 化 示意 图 。 





BN 与 权重 初始 化 比较 代码 块 : 





hidden = [ 50, 50, 50, 50, 50, 50, 50 ] 
num_train = 1000 
small data = í 
"X_train': data[ 'X_train' ][ : num train ], 
'y_train': data[ 'у train' ][ : num train ], 
'X. val: data 'X. val! ], 
'y. val': data[ 'y val' ], 
} 
bn_trainers = { } 
trainers = { } 
weight_scales = np.logspace( -4, 0, num = 20 ) 
tl =time.time( ) 
for i, weight_scale in enumerate( weight_scales ): 
print 'Running weight scale %d / %d' % ( i + 1, len( weight scales ) ) 
bn model = FullyConnectedNet( hidden dims = hidden, 
weight scale = weight scale, use batchnorm = True ) 
model = FullyConnectedNet(hidden dims = hidden, 
weight scale = weight scale, use batchnorm = False ) 
bn trainer = Trainer( bn. model, small data, num epochs = 10, batch size = 50, 
update rule —'adam', updater config = í "learning rate': 3e-3, }, 





verbose = False, print every = 200 ) 
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bn trainer.train( ) 


bn trainers[ weight scale ] = bn trainer 
trainer = Trainer( model, small data, num epochs = 10, batch size = 50, 
update rule = 'adam', updater config = í 'leaming rate': 3e-3, }, 
verbose = False, print every = 200 ) 
trainer.train( ) 
trainers[ weight scale ] = trainer 
t2 = time.time( ) 


print 'time: %.2f 96 ( t2 - t1) 








可 视 化 训练 结果 : 


best train accs, bn best train accs=[],[] 





best val accs, bn best val aces = []. [] 
final train loss, bn final train loss = [ ], [] 
for ws in weight scales: 
best train accs.append( max( solvers[ ws ].train acc history ) ) 
bn best train accs.append( max( bn solvers[ ws ].train acc history ) ) 
best val accs.append( max( solvers[ ws J.val acc history ) ) 
bn best val accs.append( max( bn solvers[ ws J.val acc history ) ) 
final train loss.append( np.mean( solvers[ ws J.loss history[ -100 : ] ) ) 
bn final train loss.append( np.mean( bn solvers[ ws J.loss history[ -100 : ] ) ) 
plt.subplots adjust( left — 0.08, right — 0.95, wspace — 0.25, hspace — 0.3 ) 
plt.subplot( 3, 1, 1 ) 
plt.title( 'Best val accuracy vs weight initialization scale’, fontsize = 18 ) 
plt.xlabel( "Weight initialization scale', fontsize = 18 ) 
plt.ylabel( 'Best val accuracy', fontsize = 18 ) 
plt.semilogx( weight scales, best val асс, '-D', label = 'baseline' ) 
plt.semilogx( weight scales, bn best val асс, '-*', label = 'batchnorm' ) 
plt.legend( ncol = 2, loc = "lower right ) 
plt.subplot( 3, 1,2) 
plt.title( 'Best train accuracy vs weight initialization scale’, fontsize = 18 ) 
plt.xlabel ("Weight initialization scale’, fontsize = 18 ) 
plt.ylabel( 'Best training accuracy',fontsize = 18 ) 
plt.semilogx( weight scales, best train accs, '-D', label = 'baseline' ) 
plt.semilogx( weight scales, bn best train accs, '-*', label = 'batchnorm' ) 
plt.legend( ) 
plt.subplot(3, 1, 3) 
plt.title( 'Final training loss vs weight initialization scale’, fontsize = 18 ) 


plt.xlabel( "Weight initialization scale', fontsize — 18 ) 
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plt.ylabel( 'Final training loss', fontsize = 18 ) 


plt.semilogx( weight scales, final train loss, '-D', label = 'baseline' ) 

plt.semilogx( weight scales, bn final train loss, '-*', label = 'batchnorm' )plt.legend( ) 
plt.gcf( ).set size inches( 10, 15 ) 

plt.show( ) 
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5-17. BN 算法 在 不 同 权重 初始 化 情况 下 的 最 佳 验证 精度 
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FA 5-18 BN 算法 在 不 同 权重 初始 化 情况 下 的 最 佳 训练 精度 


Final training loss vs weight initialization scale 


—* baseline 
*— batchnorm 












Final training loss 
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Weight initialization scale 
В 5-19 BN 算法 在 不 同 权重 初始 化 情况 下 的 损失 值 


由 图 5-17 至 图 5-19 可 以 看 出 ，BN 算法 显著 地 降低 了 权重 初始 化 对 深层 网 络 的 影响 。 并 
且 在 绝 大 多 数 情况 下 ， 加 入 BN 操作 都 提升 了 网 络 性 能 。 
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5.9 参考 代码 


动量 更 新 规则 代码 模块 : 


def sgd_momentum( w, dw, config = None ) : 





v =config[ 'momentum' ] * config[ 'velocity' ] - config[ 'learning_rate' ] * dw 


next w=w+v 





RMSProp 更 新 规则 代码 块 : 
defrmsprop( w, dw, config =None): 





config[ 'cache' ] = config[ 'decay rate' ] * config[ 'cache' ] + ( 1 - config[ 'decay rate' ] ) * dw **2 
next w = w - config[ 'learning rate' ] * dw / ( np.sqrt( config[ 'cache' ] + config[ 'epsilon' ] ) ) 


return next уу, config 











Adam 更 新 函数 代码 块 : 
defadam( w, dw, config = None ) : 


config[ 't'] += 1 

betal = config[ 'betal' ] 

beta2 = config[ 'beta2' ] 

epsilon = config[ 'epsilon' ] 

learning_rate = config[ 'learning_rate' ] 

config[ 'm' ] = beta 1 * config[ 'm' ] + ( 1 - betal ) * dw 
config[ 'v' ] = beta2 * config['v' ] + ( 1 - beta2 ) * dw **2 
mb = config[ 'm' ] / ( 1 - betal **config[ 't' ] ) 

vb = config[ 'v' ]/ ( 1 - beta2 **config[ 't' ] ) 

next w = w - learning rate * mb / ( np.sqrt( vb ) + epsilon ) 


return next. w, config 








batchnorm forward 函数 代码 块 : 


def batchnorm_forward ( x, gamma, beta, bn_param ) : 





if mode == 'train': 
mu = 1 / Поа N ) * np.sum( x, axis = 0) 
xmu = х - mu 
carre = xmu **2 
var = 1 / Поа N ) * np.sum( carre, axis = 0 ) 
sqrtvar = np.sqrt( var + eps ) 
invvar = 1. / sqrtvar 
va2 = xmu * invvar 
va3 = gamma * va2 


out = va3 + beta 
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running mean = momentum * running mean + (1.0—momentum ) * mu 
running var = momentum * running var + (1.0 — momentum ) * var 
cache = ( mu, xmu, carre, var, sqrtvar, invvar,va2, va3, gamma, beta, x, bn param ) 
elif mode == 'test': 
mu = running mean 
var = running var 
xhat = (x - mu) / np.sqrt( var + eps ) 
out = gamma * xhat + beta 
cache = ( mu, var, gamma, beta, bn param ) 
else: 
raise ValueError( ' 无 法 识别 的 BN 模式 : "Pos" % mode ) 
bn param[ running mean']- running mean 
bn param[ running уаг ] = running var 


return out, cache 


batchnorm backward 函数 代码 块 : 
def batchnorm_backward( dout cache ) : 
dx, dgamma, dbeta = None, None, None 
mu, xmu, carre, var, sqrtvar, invvar, va2, va3, gamma, beta, x, bn_param = cache 
eps = bn_param.get( 'eps', le-5 ) 
N, D = dout.shape 
# 第 9 步 反 向 传播 
dva3 = dout 
dbeta = np.sum( dout, axis = 0 ) 
# 第 8 步 反 向 传播 
dva2 = gamma * dva3 
dgamma = np.sum( va2 * dva3, axis = 0 ) 
# 第 7 步 反 向 传播 
dxmu = invvar * dva2 
dinvvar = np.sum( xmu * dva2, axis = 0 ) 
# 第 6 步 反 向 传播 
dsqrtvar = -1. / ( sqrtvar **2 ) * dinvvar 
# 第 5 步 反 向 传播 
dyar = 0.5 * ( var + eps )**( -0.5 ) * dsqrtvar 
# 第 A 步 反 向 传播 
dcarre = 1 / Поа N ) * np.ones( ( carre.shape ) ) * dvar 
# 第 3 步 反 向 传播 
ахти + = 2 * xmu * dearre 


# 第 2 步 反 向 传播 
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dx = dxmu 


dmu = - np.sum( dxmu, axis = 0 ) 

# 第 1 步 反 向 传播 

dx += 1 / float( N ) * np.ones( ( dxmu.shape ) ) * dmu 
return dx, dgamma, dbeta 








网 络 初始 化 代码 模块 : 
def init (self, input dim = 3 * 32 * 32, hidden dims = [ 100 ], num classes = 10, dropout = 0, 





use batchnorm = False, reg = 0.0, weight scale = le-2, seed = None ): 
layers dims = [ input dim ] + hidden dims + [ num classes ] 
for i in xrange( self.num layers ) : 
self.params[ 'W' + str( 1 + 1 ) ] = weight scale * np.random.randn( 
layers dims[ i], layers_dims[ i+ 1] ) 
self.params[ 'b' + str( 1 + 1 ) ] =np.zeros( ( 1, layers_dims[ i + 1] )) 
if self.use_batchnorm and i < len( hidden dims ) : 
self.params[ 'gamma' + str( i + 1 ) ] = np.ones( ( 1, layers dims[ i+ 1])) 


self.params[ 'beta' + str( i + 1 ) ] = np.zeros( ( 1, layers dims[i + 1])) 


损失 函数 代码 块 : 
def loss( self, X, у = None ) : 
scores = None 
outs,cache = { },{ } 
outs[ 0] =X 
num h = self.num layers - 1 
fori in xrange( num h): 
if self.use_dropout: 
outs[ i+ 1 ], cache[ i+ 1 ] =affine_relu_dropout_forward( 
outs[ i ], self.params[ "W' + str( i + 1) ], 
self.params[ 'b' + str( i + 1 ) ], self.dropout param ) 
elif sel£use batchnorm : 
gamma = self.params[ ‘ватта! + str( i+ 1 ) ] 
beta = self.params[ 'beta' + str( i + 1 )] 
outs[ i+ 1 ], cache[ i+ 1 ] = affine_bn_relu_forward( 
outs[ i ], self.params[ "W' + str( i + 1) ], 
self.params[ 'b' + str( i+ 1 ) ]. 
gamma, beta, sel£bn params[ i] ) 
else : 


outs[ i+ 1 ], cache[ i+ 1 ] = affine relu forward( 








outs[ i], 
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self.params[ 'b' + str(i+1)]) 
scores, cache[ num h + 1 ] = affine forward( 
outs[ num h ], 
self.params[ 'W' + str( num h +1 ) ], 
self.params[ 'b' +str( num_h + 1)]) 
if mode == 'test': 
return scores 
loss, grads = 0.0, { } 
dout = { } 
loss,dy = softmax_loss( scores, y ) 
h = self.num_layers -1 
for i in xrange( self.num_layers ): 
loss + = 0.5 * self.reg * ( np.sum( 
self.params[ 'W' + str( i + 1 ) ] * self.params[ 'W' + str(i+1)])) 
dout[ h ], grads[ 'W' + str( h + 1 ) ], grads[ 'b' + str( h + 1 ) ] = affine backward( dy, cache[ h 1] ) 
grads[ "М + str( h + 1 ) ] + = self.reg * self.params[ "W' + str( h + 1 )] 
fori in xrange( h ): 
if self.use_dropout: 
dx,dw,db = affine relu dropout backward( dout[ h – i ], cache[ h — i ] ) 
dout[h - 1—i] = dx 
grads[ 'W' + str( h— i ) ] = dw 
grads[ 'b' + str( h - i) ] = db 
elif self.use_batchnorm: 
dx, dw, db, dgamma, dbeta = affine bn relu backward( dout[ h — i ], cache[ h- i] ) 
dout[ h — 1 — i ] = dx 
grads[ 'W' + str( h— i ) ] = dw 
grads[ 'b' + str( h — i ) ] = db 
grads[ 'gamma' + str( h — i ) ] = dgamma 
grads[ 'beta' + str( h — i ) ] = dbeta 
else : 
dx, dw, db = affine_relu_backward( dout[ h — i ], cache[ h — i] ) 
dout[h - 1 — i ] = dx 
grads[ М + str( h-i)] = dw 
grads[ 'b' + str( h — i ) ] = db 
grads[ 'W' + str( h — i ) ] + = ветер * self.params[ 'W' + str ( h— i ) ] 


return loss, grads 





self.params[ 'W' + str( i+ 1 )], 
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卷 积 神经 网 络 (Convolutional Neural Network, CNN) 中 是 在 实际 应 用 中 最 为 成 功 的 一 种 
神经 网 络 ， 其 专门 用 于 处 理 格 状 结构 数据 ， 比 如 图 片 数据 就 可 以 看 成 是 由 像素 组 成 的 二 维 格 
状 数据 。 之 所 以 称 为 “ 卷 积 ”是 因为 其 数据 处 理 方式 类 似 于 数学 中 的 卷 积 操作 ， 该 网 络 也 是 
人 工 智能 领域 受 生物 启发 最 成 功 的 模型 之 一 ， 该 模型 几乎 蕉 断 了 机 器 视觉 方面 的 研究 ， 本 章 
我 们 将 详细 地 讲解 该 模型 。 

在 6.1 节 中 ， 我 们 将 从 数学 的 角度 介绍 什么 是 卷 积 操作 ， 并 介绍 数学 中 的 “ 卷 积 ”与 机 
器 学 习 中 “ 卷 积 ”的 异同 。 

在 62 节 中 ， 我 们 将 从 哺乳 动物 视神经 开始 介绍 卷 积 的 意义 ， 然 后 再 从 生物 学 迁移 到 机 
器 学 习 ， 介 绍 卷 积 在 机 器 学 习 中 的 具体 优势 : 稀疏 连接 与 参数 共享 。 

在 63 节 中 ， 我 们 将 介绍 池 化 〈Pooling) 操作 是 如 何 降 低 模型 复杂 度 的 同时 还 可 以 获取 
数据 的 空间 不 变性 ， 平 移 不 变性 等 特征 。 

在 6.4 节 中 ， 我 们 将 介绍 如 何在 卷 积 网 络 中 加 入 跨 步 卷 积 、 零 填充 、 局 部 连接 和 平 铺 连 
接 等 方法 来 设计 特定 的 卷 积 网 络 。 

在 6.5 节 中 ， 我 们 将 完成 卷 积 神经 网 络 的 编码 练习 ， 我 们 将 逐步 学 习 编 码 卷 积 、 池 化 等 
操作 ， 然 后 再 将 其 组 合成 完整 的 卷 积 神经 网 络 。 
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6.1 SRRI 


传说 杜 小 飞 是 一 个 高 级 间谍 ， 在 执行 任务 时 发 现 了 敌人 的 惊天 阴谋 但 却 无 法 脱身 。 他 只 
能 用 一 种 神奇 的 墨水 ， 将 情报 写 入 一 幅 很 大 的 油画 中 ， 然 后 托 人 将 其 带 到 长 官 手中 。 长 官 拥 
有 神奇 的 小 手电 简 ， 可 以 将 油画 中 的 秘密 信息 照 出 来 。 那 么 请 问 ， 长 官 如 何 才 能 将 油画 中 的 
内 容 照 出 来 呢 ? 

答案 是 从 油画 的 左上 和 角 开 始 ， 从 左 向 右 ， 从 上 到 下 ， 一 直 扫描 到 油画 的 右 下 角 。 和 希望 你 
看 到 以 上 内 容 时 没有 口 吐 鲜血 ， 然 后 把 本 书 撕 了 。 因 为 上 述 内 容 确实 就 是 卷 积 网 络 所 做 的 事 
情 。 那 把 神奇 的 小 手电 简 就 是 卷 积 核 (Kernel) ， 而 扫描 出 的 内 容 ， 也 就 是 卷 积 的 输出 结果 ， 
也 称 为 特征 映射 或 特征 图 (Feature Map) 。 那 卷 积 又 是 什么 呢 ? 简单 来 说 ， 卷 积 其 实 就 是 对 
数据 加 权 求 和 。 

如 果 小 燕 儿 同学 犯 了 一 个 错误 ， 杨 老师 就 会 用 皮 尺 打 小 燕 儿 的 手 ， 那 么 小 燕 儿 的 手 就 会 
立刻 浮肿 起 来 。 但 过 段 时 间 ， 手 也 会 渐渐 地 竣 愈 。 现 在 我 们 就 做 一 个 残忍 的 假设 :假设 小 燕 
儿 以 一 个 时 间 频 率 不 断 地 犯错 ， 那 杨 老 师 也 就 会 以 一 个 时 间 频 率 不 断 地 打 小 燕 儿 的 小 手 。 旧 
的 伤 还 没 痊愈 ， 新 的 疼痛 就 要 来 临 。 那 么 请 问 在 + 时 刻 小 燕 儿 的 手 肿 得 有 多 高 呢 ? 那 其 实 就 


是 将 1 时 刻 肿胀 的 高 度 加 上 +- 1 时 刻 愈合 后 还 剩 的 高 度 ， 再 加 上  — 2 时 刻 还 剩 的 高 度 …… 如 
式 (6.1) 所 示 ， 在 1 时 刻 小 燕 儿 手 肿胀 的 高 度 就 是 一 个 卷 积 的 过 程 。 
pias o) = 上 打击 力度 (a)x 权 重 (a)da= 村 打 击 力度 (a)x 权 重 (1 一 a) (6.1) 


- 般 而 言 ， 我 们 会 用 式 (6.2〉 所 示 形 式 ， 使 用 星 号 表示 卷 积 的 过 程 。 
S(t) =(x*w)(!) (6.2) 


在 机 器 学 习 中 , 我 们 的 输入 数据 通常 是 一 个 多 维 数组 ， 因 此 卷 积 核 也 将 是 一 个 多 维 数组 。 
再 看 式 〈6.1) ， 我 们 的 积分 或 求 和 是 从 负 无 穷 到 正 无 穷 的 ， 也 就 是 计算 小 燕 儿 手 的 肿胀 高 度 
也 要 从 很 久 很 久之 前 开始 ， 但 十 年 前 的 伤口 早 就 好 了 ， 其 权重 也 就 是 0。 更 确切 地 说 ， 手 肿 
卷 积 只 在 小 段 时 间 内 有 效 ， 超 过 该 范围 的 影响 因子 都 为 零 。 这 也 就 意味 着 ， 在 实践 中 我 们 不 
需要 进行 无 限 的 累加 ， 只 需要 有 限 的 累加 计算 即 可 。 
假设 使 用 二 维 图 像 7 作为 我 们 的 输入 ， 其 二 维 卷 积 核 用 KK 表示 ， 如 式 (6.3〉 所 示 ， 就 为 
该 输入 图 像 的 卷 积 。 
S, j) -U* Ky, j) - m,n) K(i-m, j-n) (63) 


卷 积 适合 交换 律 ， 因 此 还 可 以 写成 如 式 (6.4) 所 示 的 形式 。 
SG. j) -(K * 1d. = 9» Gm. j -n)K (m,n) (64) 


通常 式 (6.4) 更 容易 在 机 器 学 习 库 中 实现 。 在 上 述 公 式 中 ， 卷 积 其 实 需要 把 卷 积 核 进行 
翻转 后 再 进行 加 权 求 和 ， 也 就 是 输入 的 索引 增加 ， 卷 积 核 的 索引 应 该 减少 。 之 所 以 翻转 卷 积 
核 是 为 了 满足 卷 积 的 交换 律 性 质 ， 但 卷 积 交 换 律 在 神经 网 络 实现 中 并 不 重要 。 因 此 在 神经 网 
络 中 ， 如 式 (6.5) 所 示 ， 实 现 的 其 实 是 互相 关 〈Cross-Correlation ) 操作 ， 和 卷 积 类 似 但 不 需 
要 翻转 卷 积 。 
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S. j) -Q * Ki. j) = 37 IG m, j +) K mn) (6.5) 


在 大 多 数 机 器 学 习 库 中 ， 虽 然 实现 的 是 互相 关 操 作 ， 但 仍然 称 其 为 卷 积 ， 而 我 们 也 将 蒙 
住 自己 的 眼睛 将 互相 关 操作 继续 称 为 卷 积 操作 。 
如 果 看 完 上 述 内 容 觉 得 快要 昏 辜 了 ， 那 就 忘记 上 面 没 用 的 内 容 。 只 需要 记 住 ， 在 机 器 学 
习 中 卷 积 就 是 局 部 特征 乘 以 对 应 的 权重 ， 然 后 再 累加 起 来 即 可 。 回 到 我 们 开始 时 的 例子 ， 长 
官 从 左 到 右 ， 从 上 到 下 拿 着 小 手电 简 扫 描 油 画 ， 这 就 是 所 谓 的 “ 卷 积 ”。 如 图 6-1 所 示 ， 是 
没有 进行 卷 积 核 翻转 操作 情况 下 的 卷 积 操作 ， 并 且 在 该 例子 中 ， 卷 积 核 权 重 与 数据 局 部 特征 
-一 对 应 ， 此 时 也 叫 作 有 效 卷 积 CValid Convolution) ， 详 细 信 息 可 参看 6.4.2 节 。 








图 6-1 进行 图 像 卷 积 示意 图 


62 тій 





先 讲 一 则 故事 ，1958 年 的 某 天 ， 小 猫咪 小 花 收 到 好 友 哈 贝 Hube 和 威 塞 勒 (Wiesel) 
的 邀请 ， 到 他 们 的 实验 室 喝 茶 。 在 愉快 聊天 时 ， 小 花 得 知 他 俩 正在 研究 瞳孔 区 域 与 大 脑 皮层 
神经 元 的 对 应 关系 ， 可 由 于 缺少 志愿 者 还 在 一 筹 莫 展 。 而 就 在 此 时 ， 小 花心 中 那 神圣 的 科学 
献身 精神 突然 就 爆发 了 ， 为 了 朋友 ， 也 为 了 科学 ， 小 花 愿 意 作为 志愿 者 帮助 他 俩 。 后 来 ， 他 
们 就 在 小 花 的 眼前 ， 展 示 各 种 形状 、 各 种 亮度 的 物体 ， 并 且 在 展示 每 一 件 物体 时 ， 改 变 物体 
放置 的 位 置 和 和 角度。 他们 通过 观察 发 现 ， 小 花 视 觉 系统 中 特定 的 神经 元 只 会 对 一 些 特定 形状 
敏感 ， 并 且 移 动 这 些 形状 的 位 置 ， 特 定 的 神经 元 依旧 可 以 激活 。 此 后 他 们 经 过 多 年 的 研究 
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最 终 发 现 哺乳 动物 视觉 系统 初级 视 皮层 (Primary Visual Cortex, V1) 的 秘密 。 上 述 故 事 是 作 
者 对 Hubel 和 Wiesel 两 位 伟大 神经 生物 学 家 对 视觉 皮层 早期 研究 的 童真 演义 ， 现 实 的 研究 当 
然 是 充满 了 无 趣 和 残忍 〈 无 数 猫咪 的 后 脑 勺 被 插入 电极 ) ， 就 如 电影 《少年 派 的 奇幻 漂流 》 
结尾 说 的 那样 ， 你 更 喜欢 哪 种 故事 呢 ? 为 了 表彰 他 们 对 视觉 系统 中 信息 加 工 所 做 出 的 重大 贡 
献 ，1981 年 他 们 共同 分 享 了 当年 的 诺 贝 尔 生理 或 医学 奖 。 

我 们 就 简单 地 说 一 下 V1 视 皮层 具有 的 三 个 重要 性 质 。 


1. VI 层 就 如 一 张 网 一 样 排列 在 空间 中 ， 当 光线 仅 穿 过 视网膜 的 下 半 部 分 时 ，V1 对 应 的 
- 半 区 域 就 进入 兴 
2. V1 包含 着 许多 简单 细胞 ， 这 些 简单 细胞 仅 对 图 像 中 小 部 分 区 域 进行 线性 映射 ， 这 也 称 
HARB (Localized Receptive Field) 中。 而 卷 积 网 络 的 卷 积 特征 提取 单元 也 主要 仿真 简 
单 细 胞 的 这 一 性 质 。 
3. V1 也 包含 着 许多 复杂 细胞 ， 它 们 在 简单 细胞 中 探测 特征 ， 并 且 对 于 特征 的 小 幅 平 移 具 
有 不 变性 的 检测 能 力 ， 这 也 是 卷 积 网 络 中 池 化 〈Pooling) 单元 的 灵感 来 源 。 同 时 这 些 复 杂 细 
胞 对 于 照明 中 的 一 些 变化 也 具有 不 变 能 力 ， 不 能 简单 地 通过 在 空间 位 置 上 池 化 来 刻画 ， 而 这 
些 不 变性 给 卷 积 网 络 中 的 一 些 跨 通 道 池 化 策略 带 来 了 灵感 ， 例 如 MaxoutB] 单 元 。 


如 果 从 机 器 学 习 的 角度 出 发 , 卷 积 带 来 了 两 个 重要 的 思想 : 稀疏 连接 (Sparse Connectivity ) 
及 参数 共享 (Parameter Sharing) 。 这 些 内 容 我 们 早 在 第 4 章 深度 学 习 正 则 化 章节 就 已 经 提 到 
过 了 ， 接 下 来 我 们 将 详细 地 介绍 这 些 思 想 。 


6.2.1 稀疏 连接 





还 是 神奇 手电 简 照 油画 的 例子 ， 长官 用 的 是 小 手电 简 顺 序 地 照 油画 ， 屠 你 也 许 就 会 问 了 ， 
如 果 换 大 一 些 的 手电 简 ， 一 次 性 把 整 幅 油画 照 出 来 又 如 何 呢 ?” 这 样 的 想法 很 好 ， 关 于 大 手电 
简 和 小 手电 简 ， 就 是 我 们 本 小 节 中 将 要 讨论 的 全 连接 网 络 与 局 部 连接 或 稀疏 连接 的 内 容 。 

如 图 6-2 (b) 所 示 ， 在 传统 的 神经 网 络 中 ， 每 个 神经 元 都 会 连接 到 上 层 的 所 有 神经 元 中 ， 
这 种 连接 也 叫 作 全 连接 (Full Connectivity) 由， 而 如 图 6-2 (a) 所 示 ， 神 经 元 只 会 连接 到 上 
层 中 的 部 分 神经 元 ， 这 种 连接 就 被 称 为 稀疏 连接 (Sparse Connectivity) PRAE. (Sparse 
Interactions) 。 这 两 种 连接 最 直观 的 区 别 是 参数 数量 的 巨大 差异 ， 参 数 数量 是 机 器 学 习 中 模型 
能 力 强 弱 最 直观 的 体现 ， 模 型 能 力 又 直接 影响 着 是 否 容易 过 拟 合 ， 因 此 稀 玻 连接 也 算是 一 种 
有 效 防 止 过 拟 合 的 手段 。 

但 稀 玖 连接 也 不 仅仅 是 通过 减 小 模型 能 力 来 提升 泛 化 性 能 。 例 如 在 处 理 图 像 时 ， 输 入 图 
片 可 能 有 数 以 百 万 计 的 像素 ， 那 么 单独 的 像素 和 图 像 就 几乎 没有 什么 关联 性 ， 但 我 们 可 以 通 
过 在 数 百 像素 内 探测 小 的 有 意义 的 边 角 特 征 来 进一步 处 理 图 像 。 参 数 的 减少 也 意味 着 我 们 所 
需 的 内 存 资 源 以 及 计算 操作 的 减少 ， 这 对 于 效率 的 提升 是 巨大 的 。 假 设 我 们 有 m 输入 单元 n 
输出 单元 ， 一 次 传播 我 们 就 需要 mmXn 个 参数 连接 。 在 实践 中 ， 每 次 计算 就 需要 O( m2Xn) 时 
间 复 杂 度 。 如 果 我 们 将 每 个 输出 单元 都 限制 在 连接 参数 的 稀疏 连接 方式 ， 那 么 所 需 的 参数 
就 减少 为 kxn 个 ,计算 时 间 复 杂 度 就 为 O(kxXn)。 通常 往往 远 小 于 m， 因 此 这 对 于 效率 的 
提高 是 非常 显著 的 。 
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62 ”稀疏 连接 与 全 连接 示意 图 


也 许 你 会 质疑 ， 虽 然 参数 大 量 地 减少 了 ， 计 算 效 率 也 提升 了 ， 但 我 们 也 丢失 了 大 量 的 信 
息 ， 这 岂 不 是 “ 自 废 双 臂 ” 吗 ? 

确实 ， 稀 玻 连 接 在 单 层 中 信息 是 不 完整 的 ， 但 这 并 没有 严重 到 “ 自 废 双 臂 ”的 程度 。 在 
深层 卷 积 网 络 中 ， 稀 跑 网 络 会 通过 间接 连接 而 补 全 低层 网 络 的 输入 信息 。 如 图 6-3 所 示 ， 虽 
然 每 个 神经 元 都 是 稀疏 连接 , 但 оз 仍然 通过 ло, h3 和 4 补 全 了 所 有 的 输入 信息 ， 多 层 稀 玻 
连接 使 得 网 络 仅仅 依靠 构造 局 部 稀 朴 连接 ， 就 能 高 效 地 表述 复杂 的 网 络 交互 。 





参数 共享 (Parameter Sharing) 指 的 是 在 模型 的 多 处 使 用 相同 的 参数 。 在 上 述 例子 中 ， 使 
用 小 手电 简 顺 序 照 射 的 全 过 程 也 就 是 油画 的 每 个 位 置 都 被 同一 把 小 手电 照射 ， 这 就 是 所 谓 的 
参数 共享 。 在 神经 网 络 中 ， 参 数 共 享 还 有 一 个 同义词 叫 作 权重 捆绑 (Tied Weights) ， 这 表示 
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在 某 处 使 用 的 权重 ， 也 将 会 被 绑 定 到 其 他 的 地 方 使 用 。 在 卷 积 网 络 中 ， 卷 积 核 会 在 图 像 的 各 
个 位 置 进行 卷 积 。 因 此 卷 积 不 是 在 特定 的 位 置 学 习 特 征 ， 而 是 在 数据 的 各 个 区 域 提 取 特 征 。 
比如 ， 某 套 卷 积 参 数 可 以 提取 垂直 边缘 特征 ， 该 特征 可 能 频繁 存在 图 片 的 各 个 位 置 ， 因 此 经 
过 卷 积 的 扫 面 ， 实 际 上 是 对 图 片 进行 了 一 次 垂直 边缘 特征 过 滤 检 测 。 

如 图 6-4 所 示 ， 黑 色 箭 头 表示 一 条 特定 的 连接 权重 ， 在 图 6-4 (а) 中 的 卷 积 网 络 中 ， 黑 
色 箭 头 出 现在 每 个 输入 神经 元 与 对 应 的 输出 神经 元 中 。 而 在 图 6-4 СЬ) 中 的 全 连接 网 络 中 ， 
该 黑色 箭头 仅仅 出 现在 x3 神经 元 到 s3 神经 元 中 。 

参数 共享 并 没有 影响 神经 网 络 的 计算 时 间 ， 其 时 间 复 杂 度 仍然 为 O(kxn)， 但 其 显著 地 
降低 了 需要 存储 的 参数 个 数 ， 原 本 需要 存储 kXn 连接 权重 ， 而 现在 仅仅 需要 存储 大 个 参数 即 
可 。 比 如 识别 一 张 1000X1000 像素 的 图 片 ， 假 设 第 一 隐藏 层 神经 元 为 1 万 个 ， 那 么 在 全 连接 
网 络 中 ， 仅 仅 这 一 层 的 参数 就 需要 100 亿 个 ， 这 是 个 可 怕 的 数字 。 假 设 我 们 使 用 卷 积 网 络 ， 
其 卷 积 核 由 10X10 的 一 百 个 参数 组 成 ， 如 果 是 稀 朴 连接 ， 参 数 就 可 以 降低 到 100 万 个 。 假设 
我 们 再 使 用 参数 共享 连接 ， 那 需要 存储 的 参数 就 仅仅 只 有 100 AT, M 100 亿 到 100 这 是 非 
常 显著 的 降低 。 当 然 ， 在 实践 中 我 们 会 使 用 多 个 卷 积 核 去 提取 多 种 特征 ， 假 设 我 们 使 用 100 
个 卷 积 核 ， 那 需要 存储 的 参数 也 仅仅 只 有 1 万 个 ， 相 比 于 100 亿 的 数目 ， 那 也 是 如 同 进 入 天 
堂 了 一 般 。 
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64 参数 共享 示意 图 


6.3 池 化 操作 


在 典型 的 卷 积 网 络 中 ， 一 层 完整 的 卷 积 网 络 包含 三 个 阶段 : 第 一 阶段 称 为 卷 积 层 ， 该 层 
执行 卷 积 操作 生成 一 组 特征 图 ; 第 二 阶段 称 为 探测 层 ， 每 一 个 特征 值 都 会 被 送 入 一 个 非 线 性 
激活 单元 中 进行 激活 ; 第 三 阶段 称 为 池 化 层 ， 负 责 将 下 层 提 取 到 的 特征 进行 采样 ， 缩 小 网 络 
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йй. EA А E ? 
池 化 操作 非常 简单 ， 例 如 最 大 池 化 (Max Pooling) “SE Scip fe АЕ RE 
区 域 的 最 大 值 进行 输出 ; 平均 池 化 CAverage Pooling) 中 其 实 就 是 将 经 过 卷 积 映 射 后 采样 区 域 
9 平均 值 进行 输出 。 需 要 注意 的 是 ， 池 化 操作 不 仅 可 以 缩小 网 络 规模 ， 还 能 获取 输入 数据 的 
不 变性 特征 。 

如 果 我 们 只 在 乎 某 些 特征 存 不 存在 ， 而 不 在 乎 其 存在 的 位 置 ， 那 么 局 部 不 变性 就 是 一 个 
非常 有 用 的 属性 。 例 如 ， 识 别 图 像 中 是 否 有 人 脸 ， 我 们 不 需要 精确 地 知道 眼睛 的 位 置 ， 只 需 
要 知道 有 一 只 眼睛 在 人 脸 的 左边 ， 有 一 只 眼睛 在 人 脸 的 右边 即 可 。 由 于 模糊 位 置 加 强 了 网 络 
抗 噪声 的 能 力 ， 因 此 提高 了 模型 的 泛 化 性 能 。 在 神经 网 络 中 我 们 就 希望 能 加 入 不 变性 这 样 的 
先 验 知识 ， 以 此 加 快 网 络 的 训练 ， 并 且 提升 网 络 性 能 。 

。 ”平移 不 变性 

如 图 6-5 Са) 所 示 ， 采 用 最 大 池 化 操作 将 探测 层 中 相 邻 三 个 单元 的 最 大 值 输出 到 池 化 层 ， 
当 我 们 按照 如 图 6-5 Cb) 所 示 那 样 平移 输入 值 时 ， 池 化 层 的 输出 结果 几乎 没有 变化 。 因 为 最 
大 池 化 操作 仅仅 对 周围 的 最 大 特征 值 敏 感 ， 而 不 在 乎 精确 的 位 置 ， 因 此 这 种 不 敏感 性 反而 使 
网 络 获得 了 平移 不 变性 的 能 力 。 








池 化 阶段 





(b) 探测 阶段 
图 6-5 最 大 池 化 示意 图 
° ”旋转 不 变性 


上 述 内 容 中 ， 我 们 将 池 化 用 于 同一 卷 积 探测 层 之 后 ， 让 模型 拥有 了 平移 不 变性 的 能 力 。 
如 果 我 们 将 池 化 用 于 不 同 的 卷 积 探测 层 ， 也 就 是 在 油画 的 同一 位 置 使 用 不 同 的 手电 简 照 射 ， 
然后 再 将 不 同 的 卷 积 结果 进行 最 大 池 化 ， 那 我 们 就 可 以 得 到 旋转 不 变性 。 如 图 6-6 所 示 ， 假 
设 我 们 有 三 个 卷 积 探测 器 ， 每 个 探测 器 可 以 提取 不 同方 向 的 数字 图 片 “5”。 当 数字 “5” 出 
现在 输入 中 时 ， 对 应 的 神经 元 就 可 以 被 激活 。 如 图 6-6 (a) 所 示 ， 输 入 一 张 向 上 旋转 的 数字 
“5”， 经 过 卷 积 检测 后 ， 第 一 个 卷 积 单元 就 将 被 激活 。 如 图 6-6 (b) 所 示 ， 输 入 一 张 向 下 旋 





202 


9863 анам = 





转 的 数字 “5”， 那 么 第 三 个 卷 积 单元 就 将 被 激活 。 只 要 任意 的 卷 积 单元 被 激活 ， 经 过 最 大 池 
化 后 ， 都 可 以 识别 出 数字 “5”。 





6-6 最 大 池 化 产生 旋转 不 变性 示意 图 


上 述 介绍 的 池 化 操作 很 像 是 一 种 另类 的 卷 积 操作 ， 我 们 依然 是 在 卷 积 层 之 后 从 左上 角 每 
隔 一 个 单元 池 化 一 次 ， 一 直 池 化 到 右 下 角 。 但 这 种 方式 的 计算 消耗 太 大， 我们 只 是 选取 周围 
节点 的 最 大 值 或 平均 值 ， 其 实 并 不 需要 如 此 密集 地 进行 池 化 。 那 我 们 可 不 可 以 跳跃 着 进行 池 
化 呢 ? 比如 1，2，3 单元 我 们 选取 一 个 最 大 值 ， 然 后 4，5，6 单元 再 选取 一 个 最 大 值 ， 这 就 
相当 于 池 化 操作 跳跃 了 三 个 单元 进行 池 化 ， 而 这 种 方式 也 被 称 之 为 下 采样 (DownSampling) 。 
如 图 6-7 所 示 ， 我 们 使 用 池 化 宽度 为 3， 跳 跃 两 个 单元 进行 采样 。 这 种 方式 有 效 地 提升 了 计算 
效率 ， 假 设 为 跳跃 的 单元 ， 那 么 在 下 一 层 中 我 们 将 降低 大 约 倍 神经 元 输入 数量 。 通 过 降 
低下 一 层 维度 ， 我 们 有 效 地 减少 下 一 层 中 的 连接 参数 ， 不 仅 降低 了 内 存 消耗 ， 而 且 还 有 利于 


学 习 效 率 的 提升 。 
gH OY 
© оо oe 


67 最 大 池 化 用 于 下 采样 示意 图 


池 化 还 是 处 理 变 长 输入 的 基本 手段 之 一 。 例 如 ， 处 理 图 像 识别 任务 时 所 拥有 的 图 片 数 据 
大 小 不 相同 ， 但 是 在 神经 网 络 中 ， 网 络 是 固定 的 ， 假 设 输 入 单元 为 100， 那 我 们 只 能 输入 100 
像素 的 图 片 。 但 如 果 拥有 的 是 110 像素 的 图 片 ， 那 就 需要 对 图 片 进行 缩小 或 裁剪 ， 如 果 拥 有 
的 是 90 像素 的 图 片 ， 那 就 需要 对 图 片 进行 放大 或 填充 ; 如 果 我 们 不 想 直接 剪裁 图 片 ， 那 就 可 
以 利用 池 化 操作 将 输入 数据 缩放 在 固定 的 尺寸 上 。 
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6.4 设计 卷 积 神经 网 络 


当 在 神经 网 络 的 环境 中 讨论 卷 积 时 ， 我 们 通常 都 不 完全 实现 卷 积 操 作 。 在 实践 中 ， 我 们 
通常 都 会 根据 需要 对 卷 积 网 络 进行 轻微 地 修改 ， 接 下 来 我 们 就 介绍 一 些 重要 的 网 络 变种 。 

首先 ， 神 经 网 络 中 的 卷 积 是 由 多 个 卷 积 核 并 行 处 理 。 由 于 特定 的 卷 积 核 ， 在 数据 的 多 个 
位 置 进行 卷 积 处 理 时 ， 都 只 是 在 检测 某 一 种 特征 。 因 此 在 网 络 的 每 一 层 ， 我 们 需要 多 个 卷 积 
核 提 取 不 同 的 卷 积 特征 作为 候选 。 

其 次 ， 我 们 的 输入 通常 也 不 仅仅 是 格 状 的 二 维 数据 ， 也 可 能 为 三 维 数据 。 例 如 ， 在 图 像 
识别 时 ， 图 片 的 每 个 像素 都 是 由 红 、 绿 、 蓝 三 种 颜色 构成 。 因 此 ， 输 入 数据 就 变 成 了 三 维 数 
组 ， 其 中 一 维 表示 颜色 不 同 的 通道 ， 另 外 两 维 表示 每 一 通道 中 图 像 像 素 的 二 维 坐 标 。 

我 们 使 用 四 维 数组 K, ,i 表示 多 道 卷 积 核 ,其 中 下 标 i 表示 卷 积 核 连 接 到 输出 的 第 i 通道 ; 
下 标 j 表示 输入 数据 的 第 7 通道 ， 下 标 表 示 输 入 数据 的 第 k 行 ， 下 标 ! 表示 输入 数据 的 第 / 
列 。 而 我 们 使 用 数组 , , 表示 第 i 道行 k 列 的 输入 数据 ， 那 输出 单元 Z 的 第 i 道 j 行 k 列 的 
卷 积 结果 就 如 式 (6.6) 所 示 。 


LMN 
Жыл” > > > V, pinin in (6.6) 


1=1 m=l n=l 




















公式 看 起 来 可 能 有 些 复 杂 ， 但 其 实 所 表达 的 含义 特别 简单 ， 其 实 就 是 将 大 小 为 m 行 n 列 
的 各 通道 数据 ， 都 乘 以 各 自 的 权重 ， 然 后 加 起 来 放 到 对 应 的 输出 单元 。 由 于 数组 下 标 是 从 1 
开始 ， 因 此 需要 减 一 。 如 果 数据 下 标 从 零 开始 ， 可 以 直接 将 下 标 中 的 -1 去 除 。 


6.4.1 PS 


为 了 减少 计算 花费 ， 在 池 化 操作 时 我 们 选择 跨 步 (stride ) 的 方法 ， 将 卷 积 结果 进行 跨 步 
池 化 〈 下 采样 ) 。 同 样 地 ， 在 不 显著 影响 特征 提取 的 前 提 下 ， 也 可 以 使 用 跨 步 卷 积 的 方式 进 
行 特征 提取 。 我 们 也 可 以 将 跨 步 卷 积 看 作 是 对 卷 积 操作 的 输出 结果 进行 下 采样 ， 如 图 6-8 Ca) 
所 示 ， 我 们 使 用 步 幅 为 2 的 跨 步 卷 积 提取 特征 ， 而 在 图 6-8 (b) 中 我 们 使 用 步 幅 为 1 的 默认 
跨 步 进行 完整 的 特征 提取 ， 然 后 再 在 提取 到 的 特征 图 中 进行 跨 步 为 2 的 下 采样 操作 。 显 然 ， 
这 两 种 方式 在 效果 上 是 等 价 的 ， 但 卷 积 之 后 采样 明显 更 浪费 计算 机 资源 ， 因 此 在 实际 操作 中 
我 们 会 使 用 跨 步 卷 积 ， 而 不 考虑 卷 积 之 后 再 采样 。 

如 果 我 们 想 要 在 输入 数据 的 每 个 方向 上 进行 采样 ， 我 们 只 需要 在 每 次 卷 积 之 后 ， 将 行 下 
标 和 列 下 标 同时 乘 以 s 即 可 ， 如 式 〈6.7) 所 示 。 当 然 ， 也 可 以 根据 实际 需要 分 别 对 行 和 列 ， 
进行 不 同步 幅 的 跨越 。 


L MN 
Zijk =c(K,V, 5), ук = >, 25 om Via yeso Mio ТРЧЕ (6.7) 


m=] n=l 
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68 ” 跨 步 卷 积 与 卷 积 加 采样 比较 示意 图 


6.4.2 Bar 


在 默认 情况 下 ， 卷 积 网 络 每 经 过 卷 积 核 大 小 为 上 的 卷 积 后 ， 网 络 大 小 至 少 会 缩小 龙 1。 如 
图 6-9 所 示 ， 假 设 我 们 的 输入 数据 为 16 维 ， 卷 积 核 大 小 为 6， 那么 在 默认 情况 下 ， 我 们 的 网 
络 每 层 就 会 减少 5, 因此 该 网 络 会 在 三 层 之 后 将 网 络 输出 缩减 为 1。 我 们 之 所 以 将 “神经 网 络 ” 
改名 为 “深度 学 习 ”， 就 是 想 强调 我 们 应 该 使 用 深层 的 网 络 模型 去 表征 数据 。 但 在 默认 情况 
下 ， 我 们 想 要 深层 的 网 络 模型 就 需要 减 小 卷 积 核 的 大 小 ， 但 减 小 卷 积 核 大 小 ， 特 征 提 取 的 能 
力也 将 减弱 。 因 此 ， 这 是 一 个 两 难 的 问题 。 


py 


图 6-9 卷 积 网 络 收缩 示意 图 
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所 谓 零 填充 (Zero Padding) ， 就 是 在 每 一 层 网 络 的 边缘 填充 上 输出 为 零 的 神经 元 。 如 图 
6-10 所 示 ， 我 们 在 每 一 层 网 络 的 边缘 都 加 入 5 个 输出 为 零 的 单元 〈 黑 色 实 心 节点 ) ， 那 就 刚 
好 抵消 使 用 卷 积 核 为 6 的 网 络 缩减 的 影响 。 我 们 就 可 以 任意 地 选择 卷 积 网 络 的 层 数 ， 而 不 需 
要 考虑 卷 积 缩减 的 影响 。 


eeecoooooooooooooooee 


eda s coooococos 1 
人 下 


6-10 零 填充 卷 积 网 络 示意 图 


° 有效 卷 积 (Valid Convolution): 有 效 卷 积 其 实 就 是 没有 零 填 充 的 卷 积 ， 该 卷 积 要 求 
卷 积 核 与 输入 单元 一 一 对 应 , 图 6-9 就 可 以 看 作 是 一 个 有 效 卷 积 的 网 络 结构 示意 图 。 
假设 输入 单元 的 宽度 为 m， 卷 积 核 的 宽度 为 k， 那 其 输出 的 宽度 就 为 m 一 k+ 1。 随 
着 网 络 层 数 的 增加 ， 该 网 络 每 一 层 的 神经 元 数量 也 会 显著 地 减少 ， 直 至 缩减 为 1。 
因此 ， 有 效 卷 积 需要 仔细 衡量 卷 积 核 尺寸 与 网 络 层 数 的 利 兽 。 

° ”相同 卷 积 (Same Convolution): 相同 卷 积 就 是 填充 零 神 经 元 将 网 络 补充 回 原来 大 小 
的 卷 积 操作 。 如 图 6-10 就 可 以 看 作 是 一 个 相同 卷 积 的 网 络 结构 示意 图 ， 由 于 该 卷 积 
没有 改变 网 络 结构 ， 因 此 可 以 自由 地 选择 网 络 的 层 数 及 卷 积 核 的 尺寸 。 但 由 于 网 络 
边缘 实际 连接 参数 较 少 ， 在 网 络 的 边缘 会 出 现 欠 表示 现象 。 

° 全 卷 积 (Full Convolution ): 全 卷 积 则 是 最 极端 的 一 种 零 填 充 的 方式 , 经 过 全 卷 积 后 ， 
神经 元 的 数量 不 但 不 会 减少 ， 还 会 增加 。 假 设 输入 单元 的 宽度 为 m， 卷 积 核 的 宽度 
为 k， 那 么 输出 的 宽度 就 为 m+ 上- 1， 该 过 程 在 网 络 左右 边缘 各 添加 大 - 1 个 零 神 经 
元 进行 卷 积 。 假 如 卷 积 核 尺寸 为 6， 第 一 个 卷 积 提取 神经 元 ， 会 将 第 一 个 输入 单元 
与 卷 积 核 第 6 个 连接 权重 进行 相 来 ; 第 二 个 卷 积 提取 单元 ， 会 将 第 1-2 个 输入 单元 
与 卷 积 核 第 5-6 个 连接 权重 进行 相 乘 相 加 ; 到 最 后 一 个 卷 积 提取 神经 元 时 ， 就 将 最 
后 一 个 输入 单元 与 卷 积 核 第 1 个 连接 权重 进行 相 乘 。 这 种 卷 积 方式 在 网 络 边 缘 会 出 
现 更 为 严重 的 欠 表 示 现 象 。 


在 实践 中 ， 最 佳 的 零 填充 数量 总 是 介 于 有 效 卷 积 与 相同 卷 积 之 间 。 
6.4.3” 非 共享 卷 积 


在 某 些 情况 下 ， 我 们 并 不 一 定 真正 想 用 卷 积 ， 而 只 是 构造 局 部 连接 由 的 网 络 层 。 这 种 网 
结构 和 卷 积 网 络 相同 ， 只 是 每 一 个 “局 部 卷 积 核 ” 都 有 着 不 同 且 独立 的 连接 权重 ， 这 种 局 
GERI dn (Unshared Convolution) . 2 (6.8) 所 示 ， 我 们 可 以 
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使 用 一 个 6 维 数组 进行 表示 。 
Zink = ЕХ. РЕ Wi тл (6.8) 
l m n 


SOM W cus HALES UPLB, T i 表示 输出 的 通道 ，/ 表示 输出 的 行 ，k 表示 输 
出 列 ，/ 表 示 输入 的 通道 ，m 表示 输入 的 行 ， 表示 输入 列 。 

当 数 据 具 有 空间 局 部 特征 ， 但 该 特征 并 没有 重复 出 现在 整个 特征 空间 时 ， 局 部 连接 层 就 
会 变 得 很 有 用 。 如 图 6-11 所 示 ， 比 较 了 卷 积 连 接 、 局 部 连接 和 全 连接 的 网 络 结构 示意 图 ， 其 
中 不 同 字母 表示 不 同 的 连接 权重 。 在 局 部 连接 中 ， 每 个 连接 权重 都 是 不 同 的 ， 而 在 卷 积 连接 
中 ， 连 接 权重 多 次 重复 出 现 。 


2333: 




















图 6-11 局 部 连接 、 卷 积 连接 和 全 连接 结构 比较 示意 图 
6.4.4 FER 


我 们 将 卷 积 连接 想象 成 使 用 小 手电 简 在 一 幅 油画 上 顺序 地 扫描 照射 ， 将 局 部 连接 想象 成 
在 油画 的 不 同 的 位 置 用 不 同 的 小 手电 简 照 射 。 各 自 的 优 缺 点 也 就 比较 清晰 了 : 一 把 手电 简 (一 
BBR) 始终 能 力 有 限 ， 但 在 各 个 区 域 都 使 用 不 同 的 手电 简 又 略 显 “浪费 ”。 我 们 能 否 做 一 
个 折 中 呢 ? 比 如 捆绑 两 把 或 三 把 手电 简 顺 序 地 扫描 ? 平 铺 卷 积 (Tiled Convolution) 外 就 是 介 
于 卷 积 与 局 部 连接 之 间 的 一 种 折 中 人 处理。 

平 铺 卷 积 非常 类 似 于 同时 使 用 多 个 跨 步 卷 积 交替 地 进行 卷 积 处 理 。 假 设 我 们 使 用 两 个 尺 
十 为 6 的 卷 积 核 进行 平 铺 卷 积 ， 那 么 第 一 个 卷 积 核 函数 就 会 与 输入 的 第 1-6 单元 进行 卷 积 ; 
第 二 个 卷 积 核 函 数 就 会 与 第 2-7 单元 进行 卷 积 ;然后 第 一 个 卷 积 核 再 与 输入 的 第 3-8 单 元 卷 积 ， 
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这 样 依次 交替 进行 。 如 图 6-12 所 示 ， 比 较 了 卷 积 、 平 铺 卷 积 和 局 部 连接 的 网 络 结构 。 我 们 使 
用 上 表示 平 铺 卷 积 中 卷 积 核 的 数量 ， 如 果 =1 就 退化 为 传统 的 卷 积 操作 ; m 表示 输入 维度 ，k 
表示 卷 积 核 大 小 ， 当 гет 时 就 退化 为 传统 的 局 部 连接 。 如 式 (6.9) 所 示 ， 下 标 i js k 
分 别 表示 第 i TL j 1T k Fil, FERL m. п 表示 第 /输入 通道 m 行 n 列 ,1 表示 卷 积 核 数 
量 。 而 % 表 示 取 模 运 算 ， 比 如 %0; (rl)%8=1; 19ot-l. 


Шык = > > > V, jamaa A E H1k%t+1 (6.9) 
l m n 


Q 
© 


TT 
U 


图 6-12 局 部 连接 、 平 铺 卷 积 和 卷 积 结构 比较 示意 图 


6.5” 卷 积 网 络 编码 练习 


在 本 章节 的 练习 中 ， 我 们 将 对 卷 积 、 池 化 、 空 间 批量 归 一 化 等 内 容 进行 编码 ， 并 比较 不 
同 实现 方式 的 执行 效率 。 由 于 Python 语言 运行 效率 太 过 缓慢 , 我 们 会 在 第 8 章 TensorFlow 快 
速 入 门 章节 中 再 次 训练 卷 积 网 络 ， 本 章 我 们 只 需要 针对 卷 积 网 络 的 各 个 模块 进行 编码 练习 即 
可 。 接 下 来 ， 打 开 “ 第 6 章 练 习 - 卷 积 神经 网 络 .ipynb” 文 件 ， 进 入 本 章 练 习 。 本 章 我 们 将 逐 
步 完 成 以 下 操作 。 

. 卷 积 前 向 传播 编码 练习 ; 

. 卷 积 反 向 传播 编码 练习 ; 

。 最 大 池 化 前 向 传播 编码 练习 ; 
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° 最 大 池 化 反 向 传播 编码 练习 ; 
° 组合 完整 卷 积 层 编码 练习 ; 
。 ”空间 批量 归 一 化 编码 练习 。 


首先 是 我 们 已 经 非常 熟悉 的 库 文件 导入 以 及 训练 数据 导入 代码 模块 ， 本 章 的 练习 文件 存 
放 在 “DLAction/classifiers/chapter6 ”目录 中 。 





库 文件 ， 数 据 导入 代码 块 : 
#-*- coding: utf-8 -*- 
import time 
import numpy as np 
import matplotlib.pyplot as plt 
from classifiers.chapter6 import * 
from utils import * 
%matplotlib inline 
plt.rcParams[ 'figure.figsize' ] = ( 10.0, 8.0 ) 
plt.rcParams[ 'image.interpolation' ] = 'nearest 
plt.rcParams[ 'image.cmap' ] = 'gray' 
%load_ext autoreload 
%autoreload 2 
def rel error( x, y ) : 
return np.max( np.abs( x — y ) / ( np.maximum( 1е-8, np.abs( x ) + np.abs( y )) )) 
# 导入 数据 。 
data = get CIFARIO data( ) 
for К, v in data.iteritems( ): 








print '%s: ' % К, v.shape 


6.5.1 卷 积 前 向 传播 


卷 积 的 前 向 传播 过 程 ， 其 实 就 是 使 用 多 个 卷 积 核 顺序 扫描 输入 数据 的 过 程 。 虽 然 思想 简 
单 ， 但 对 于 实际 编程 而 言 可 能 就 会 比较 有 难度 了 。 我 们 已 经 实现 了 前 向 传播 最 直观 的 版 本 ， 
但 执行 效率 十 分 低下 ， 可 读 性 也 非常 差 。 该 版 本 涉及 很 多 个 显 式 的 循环 ， 仔 细 阅 读 该 版 本 代 
人 码 并 充分 理解 前 向 传播 后 ， 打 开 “DLAction/classifiers/chapter6/cnn_layers.py ”文件 ， 完 成 
conv forward naive 函数 的 编码 练习 ， 使 用 的 显 式 循环 越 少 ， 其 执行 效率 就 越 高 。 


| 卷 积 前 向 传播 代码 块 (多 循环 》: 


def conv_forward_naivel( x, w, b, conv_param ) : 








"ин 


卷 积 层 传播 的 慢 速 版 本 。 
该 过 程 尽 可 能 地 逻辑 清晰 即 可 ， 你 可 以 使 用 多 个 嵌 套 循环 完成 该 函数 。 
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Input: 
-x: 四 维 图 片 数 据 ( N, C, H, W )， 分 别 表 示 ( 数 量 ， 色 道 ， 高 ， 宽 )。 
-w: 四 维 卷 积 核 (F, C, HH, WW )， 分 别 表 示 ( 下 层 色 道 ， 上 层 色 道 ， 高 ， 宽 )。 
-b: 偏 置 项 (下, ) 
-conv param: 字典 型 参数 表 ， 其 键 值 为 : 
= stride': 跳 跃 数据 进行 卷 积 的 跨 幅 数 量 。 
- pad': 输 入 数据 的 零 填 充 数量 。 
Returns 元 组 型 : 
- out: 输出 数据 (N, Е, Н, W) ， 其 中 H' 和 Ww 分 别 为 : 
H'=1+(H+2* pad- HH )/stride 
W'= 1 +( W +2 * pad- WW )/stride 


- cache: ( x, w, b, conv_param ) 


out = None 

HHEH HEH E H HHH EH H HHH HEH H HHHH H HH HH H HHH HH H HHH HH H HH qa Su H 
# 任务 : 实现 卷 积 层 的 前 向 传播 。 # 
# 提示 : 可 以 使 用 np.pad 函数 进行 零 填充 。 # 


JHHHHHHHHHBHHBHHHHHBHHBHHBHHHHHHHHHHHHHHHHHEHHHHHHHHHHBHHHHHHHE 
N, C, H, W = x.shape[ 0 ], x.shape[ 1 ], x.shape[ 2 ], x.shape[ 3] 
F, HH, WW = w.shape[ 0 ], w.shape[ 2 ], w.shape[ 3 ] 
pad = conv param[ 'pad' ] 
stride = conv param[ 'stride' ] 
x. pad = np.pad( x, ( (0, ), ( 0, ), (рай, ), (рай, ) ), ‘constant’ ) 
Hhat = 1 + (H + 2 * pad НН ) / stride 
What= 1 + ( W + 2 * pad - WW )/ stride 
out — np.zeros( [ N, F, Hhat, What ] ) 
for п in xrange( N ): 
for f in xrange( F ) : 
for i in xrange( Hhat ) : 
for j in xrange( What ) : 
xx = x рай[ п, : , i * stride : I * stride + HH, j * stride : j* stride + WW] 
out[n, f, i, j ] = np.sum( xx * w[f]) + b[ f ] 
H HEE EE H H H HH HH HHHH HHHH HHH HHH HHH HR HHH HR HHHH HHHHHHH 
# 结束 编码 # 
HEARED 
cache = ( x, w, b, conv_param ) 


return out, cache 





阅读 上 述 代 码 块 后 ， 实 现下 列 代码 块 。 
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卷 积 前 向 传播 代码 块 : 





def conv_forward_naive( x, w, b, conv_param ) : 
卷 积 前 向 传播 。 
该 过 程 尽 可 能 地 逻辑 清晰 即 可 ， 可 以 使 用 多 个 峰 套 循环 完成 该 函数 。 
Input: 
-x: 四 维 图 片 数据 ( N, C, H, W )， 分 别 表 示 ( 数 量 ， 色 道 ， 高 ， 宽 )。 
-w: 四 维 卷 积 核 ( F, C, HH, WW )， 分 别 表示 (下 层 色 道 ， 上 层 色 道 ， 高 ， 宽 )。 
-b: 偏 置 项 (下 , )。 
-conv param: 字典 型 参数 表 ， 其 键 值 为 : 
-stride': 跳 跃 数 据 进行 卷 积 的 跨 幅 数量 。 
- pad': 输 入 数据 的 零 填 充 数量 。 
Returns 元 组 型 : 
- out: 输出 数据 (N, F,H, W) ， 其 中 H 和 Ww 分 别 为 : 
H'=1+(H +2 * pad — HH )/ stride 
W'=1+(W+2* pad- WW )/stride 


- cache: ( x, w, b, conv_param ) 


т" 


out = None 

H H HHH HH HHH HHHH HH HHH H HHHH HHHH HH HHH HHHH HHH HH HHH HH HHHH HAH HHH HHHH 
# 任务 : 实现 卷 积 层 的 前 向 传播 。 # 
# 提示 : 可 以 使 用 np.pad 函数 进行 零 填充 。 # 


i 


RHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHBHHHHHBHHHHHHHBHHHHHBHHHHEE 
# 结束 编码 # 
HEALER EEE HEHE EEE HEHE EEE HE HH HHH HHH HHH HH HHH HHH HHH HHA HH HHA HHAH HHH HHH 
cache = ( x, w, b, conv_param ) 


return out, cache 





完成 上 述 代 码 块 后 ， 执 行 下 列 代码 进行 检验 。 





检验 卷 积 前 向 传播 代码 块 : 








x shape-(2,3,4,4) 
w_shape = ( 3, 3, 4,4 ) 





211 





- 深度 学 习 实战 


x = np.linspace( -0.1, 0.5, num = np.prod( x shape ) ).reshape( x shape ) 
w = np.linspace( -0.2, 0.3, num = np.prod( w shape ) ).reshape( w shape ) 
b=np.linspace( -0.1, 0.2, num = 3) 
conv param = { 'stride': 2, рай": 1} 
out, _ = сопу forward naive( x, w, b, conv param ) 
correct. out = np.array( [ [ [ [ [ -0.08759809, -0.10987781 ], 
[ -0.18387192, -0.2109216 ] ]. 
[[0.21027089, 0.21661097 ], 
[0.22847626, 0.23004637 ] ], 
[[0.50813986, 0.54309974 ], 
[0.64082444, 0.67101435]]]. 
[[ [-0.98053589, -1.03143541 ], 
[ -1.19128892, -1.24695841 ] ], 
[[0.69108355, 0.66880383 ], 
[0.59480972, 0.56776003 ] J, 
[[2.36270298, 2.36904306 ], 
[ 2.38090835, 2.38247847]]]]]) 
# 误差 应 该 在 le-8 左右 。 
print ' 测 试 conv forward naive 函数 ' 


print "误差: ', rel_error( out, correct out ) 





正确 编码 检验 结果 : 
测试 conv_forward_naive 函数 
误差 : 2.21214764175e-08 








6.5.2” 卷 积 反 向 传播 


对 于 初学 者 而 言 ， 卷 积 的 反 向 传播 会 非常 难以 实现 ， 如 果 使 用 显 式 循环 的 方式 ， 可 能 会 

需要 6 层 左 右 的 循环 。 阅 读 conv_backward_naivel 函数 代码 ， 当 你 理解 该 过 程 之 后 ， 打 开 

“DLAction/classifiers/ chapter6/cnn_layers.py” 文 件 ， 试 着 完成 conv_backward_naive 函数 ， 并 
尽 可 能 减少 显 式 循环 的 使 用 数量 。 


卷 积 反 向 传播 显 式 循环 版 本 : 


defconv backward naivel(dout, cache): 








卷 积 层 反 向 传播 显 式 循 环 版 本 。 

Inputs: 

- dout: 上 层 梯度 。 

- cache: 前 向 传播 时 的 缓存 元 组 (x, м, b, сопу param ). 
Returns 元 组 : 
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-dx: x PERE. 
-dw: w 梯 度 。 
-db: b. 


dx, dw, db = None, None, None 

JHHHHHHHHHHHHHHHHHHHHHBHE GHHHEHHHBHHBHHHHHHHHBHHHHBHHHHHBHHHHER 
# 任务 : 实现 卷 积 层 反 向 传播 。 # 
HBEHBHHHHHHHHHHHHHBHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHBHHBHHHHBHHHHHBHHHHEE 











X, w, b, сопу param = cache 
Р = сопу рагат[ 'pad' ] 
x pad = np.pad( x, ( ( 0, ), (0, ), (Р, ), (Р, ) ), ‘constant’ ) 
N, С, Н, W = x.shape 
Е, С, HH, WW = w.shape 
N, F, Hh, Hw = dout.shape 
S = сопу param([ 'stride' ] 
dw = np.zeros( ( F, CHH, WW )) 
for fprime in range( F ) : 
for cprime in range( C ) : 
fori in range( НН): 
for j in range( WW ) : 
sub xpad = x_pad[: ,cprime, i: i - Hh * S:S,j:j + Hw* S:S] 
dw[ fprime, cprime, i, j ] = np.sum( dout[ : , fprime, : , : ] * sub xpad ) 
db = np.zeros( (Е ) ) 
for fprime in range( F ) : 
db[ fprime ] = np.sum( dout[ : , fprime, : , : ] ) 
dx = np.zeros( ( N, С, H, W ) ) 
for nprime in range( N ) : 
for i in range( H ): 
for j in range( W ): 
for f in range( F ) : 
for k in range( Hh ) : 
for | in range( Hw ) : 
maskl =np.zeros_like( w[ f, :,:,:]) 





mask2 = np.zeros_like( w[f, :,:.:]) 

if(i+P-k*S)<HHand(i+P-k*S)>=0: 
maskl[:,i* P-k*$S,:]- L0 

if(j*P-1*S)«WWand(j*P-1*S)2-0: 
masl2[ :,:,j* P-1*S]- 1.0 


w masked = np.sum( w[ f, : , : , : ] * maskl * mask2, axis =( 1,2) ) 
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dx[ nprime, : ,i,j ]+= dout[ nprime, f, k, 1] * w_masked 
JHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
# 结束 编码 # 








HHHH HHHHHHHHHHHBHHBHHHHBHHHHHBHHHHHBHHHHHBHHHHBSHHHHHBHHHHHSHHHE 
return dx, dw, db. 





阅读 多 循环 版 本 后 ， 试 着 减少 循环 ， 完 成 下 列 代码 块 。 


conv backward naive 函数 代码 块 : 


defconv backward naive( dout, cache ): 





卷 积 层 反 向 传播 。 

Inputs: 

- dout: 上 层 梯度 。 

= cache: 前 向 传播 时 的 缓存 元 组 ( x, w, b, сопу param )。 

Returns 元 组 : 

- dx: x 梯度 。 

- dw: w 梯度 。 

- db:b 梯度 。 

dx, dw, db = None, None, None 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHNE 
# 任务 : 实现 卷 积 层 反 向 传播 。 # 
THHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHNE 


AEH HEHH HEH HHHH HHEH EHH E E H HE H HHHH 
# 结束 编码 # 
THHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHBHHBHHBHHBHHBHHHHHBHHHHRHHNE 


return dx, dw, db 











完成 上 述 代码 块 后 ， 使 用 下 列 代码 进行 梯度 检验 。 
conv backward naive 梯度 检验 代码 块 : 


x = np.random.randn( 4, 3, 5, 5) 








w = np.random.randn( 2, 3, 3, 3 ) 


b=np.random.randn( 2, ) 








dout = np.random.randn( 4, 2, 5, 5 ) 
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conv param = { 'stride': 1, pad: 1 } 

dx num = eval numerical gradient array( lambda x: conv forward naive( х, w, b, conv param )[ 0 ], x, dout ) 
dw пит = eval numerical gradient array( lambda w: conv forward naive( х, w, b, conv param )[ 0 ], w, dout ) 
db num = eval numerical gradient array( lambda b: conv forward naive( х, w, b, conv param )[ 0 ], b, dout ) 
out, cache = сопу forward naive( х, w, b, conv param ) 

dx, dw, db = conv backward naive( dout, cache ) 

# 相对 错误 大 约 为 1e-9'。 

print ' 测 试 conv backward naive 函数 ' 

print 'dx 误差 : ', rel. error( dx, dx num ) 

print 'dw 325: ', rel. error( dw, dw num ) 

print 'db 误差 : ', rel. error( db, db num ) 





正确 编码 后 的 梯度 检验 结果 : 
测试 conv_backward_naive 函数 
dx 误差 : 4.19390482385e-09 
dw 误差 : 6.74985341202e-10 
db 误差 : 7.5566263037e-12 











6.53 ”最 大 池 化 前 向 传播 


同样 地 ， 我 们 也 已 经 实现 了 max pool forward naivel 函数 。 仔 细 阅 读 该 代码 后 ， 试 着 尽 
可 能 少 地 使 用 显 式 循环 ， 完 成 最 大 池 化 的 前 向 传播 。 打开 “DLAction/classifiers/chapter6/ 
cnn_layers.py” 文 件 ， 完 成 max_pool_forward_naive 函数 ， 实 现 最 大 池 化 前 向 传播 。 


max pool forward naivel 函数 代码 块 : 





def max_pool_forward_naivel(x, pool param): 
实现 慢 速 版 本 的 最 大 池 化 操作 前 向 传播 。 
Inputs: 
-x: 数据 (N, C,H, W) 
-pool param: 键 值 : 
-'pool height: 池 化 高 度 。 
-'pool width': 池 化 宽度 。 
-'stride': 步 幅 。 
Returns 元 组 型 : 
- out 输出 数据 。 
- cache: ( x, pool param ) 
out — None 


HEHEHE H H H HHHH 
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# 任务 : 实现 最 大 池 化 操作 的 前 向 传播 。 # 
JHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHREHE 
N, C, H, W = x.shape 
pool_h = pool param['pool height' ] 
pool_w = pool param[ 'pool_width' ] 
stride = pool param[ 'stride' ] 
На! = ( W - pool w )/ stride + 1 
hHat = ( Н - pool h ) / stride + 1 
ош = np.zeros( ( N, C, hHat, wHat ) ) 
for n in xrange( N ): 
for c in xrange( C ) : 
for w in xrange( wHat ) : 
for h in xrange( hHat ) : 
out[ n, c, h, w ] = np.max( x[ п, c, h * stride : h * stride + pool_h, 
w * stride : w * stride + pool w]) 
HE H H HHH HH H HH H HHH HHH HH HHHH HH HHH HH HHH HHHH HHH HH HHH HH HHHH HHH HH HH 
# 结束 编码 # 
#ЕЕНННННННННҤНННННННННННННННННННННННННННННИНННННННННИНННИННҤН 
cache = ( x, pool_param ) 


return out, cache 
阅读 上 述 代码 后 ， 完 成 下 列 代码 块 。 


max pool forward naive 函数 代码 块 : 
def max_pool_forward_naive( x, pool_param ) : 
最 大 池 化 前 向 传播 。 
Inputs: 
-x 数据 (№, C,H, W )。 
- pool param: 键 值 : 
-'pool_height': 池 化 高 度 。 
-'pool width': 池 化 宽度 。 
-'stride’: 步 幅 。 
Returns 元 组 型 : 
- out: 输出 数据 。 
- cache: ( x, pool param ) 


"m 





out = None 
HHHHHHHHHHHHHBHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHH IHE 
# 任务 : 实现 最 大 池 化 操作 的 前 向 传播 。 # 
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THBHHBHHHHHHHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


ARH HH HHHH HHH HHHH HHHH HHH HHH HHRHH HHHH HHRHH HH HHH HHHH HH HHH HHHH HH HHE 
# 结束 编码 # 
TIHHHHHHBHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHHHHBHHHHHBHHHHHBHHHHHRHHE 
cache = ( x, pool param ) 








return out, cache 


完成 上 述 代 码 后 ， 使 用 下 列 代码 检验 最 大 池 化 前 向 传播 。 


max pool forward naive 函数 检验 代码 块 : 
x_shape = ( 2, 3,4,4 ) 
x = np.linspace( -0.3, 0.4, num = np.prod( x_shape ) ).reshape( x_shape ) 
pool param = ( 'pool_width': 2, 'pool height": 2, 'stride': 2 } 
out, = max pool forward naive( x, pool param ) 
correct out = np.array ([[[[ -0.26315789, -0.24842105 ], 
[ -0.20421053, -0.18947368 ] ]. 
[ [-0.14526316, -0.13052632 ], 
[ -0.08631579, -0.07157895 ] ]. 
[ [ -0.02736842, -0.01263158 ], 
[0.03157895, 0.04631579 ] ] ], 
[ [ [ 0.09052632, 0.10526316], 
[0.14947368, 0.16421053 ] ], 
[[0.20842105, 0.22315789 ]， 
[0.26736842, 0.28210526 ]], 
[[0.32631579, 0.34105263 ], 
[ 0.38526316， 0.4 11D 
# 相对 误差 大 约 为 le-8。 
print 测试 max pool forward naive 函数 :' 


print X25: ', rel_error( out, correct out ) 


жов анама = 











正确 编码 后 的 检验 结果 : 
测试 max pool forward naive PAR: 
误差 : 4.16666651573e-08 
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654 ”最 大 池 化 反 向 传播 


AI 


同样 地 ， 我 们 也 已 经 实现 了 max pool backward naivel 函数 ， 仔 细 阅 读 该 代码 后 ， 试 着 
可 能 少 地 使 用 显 式 循 环 ， 完 成 最 大 池 化 的 反 向 传播 。 打 开 “DLAction/classifiers/chapter6/ 


cnn_layers.py” 文 件 ， 完 成 max_pool_backward_naive 函数 。 





max_pool_backward_naivel 函数 代码 块 : 





de 





fmax pool backward naivel( dout cache ) : 
最 大 池 化 反 向 传播 显 式 循环 版 本 。 

Inputs: 

-dout: 上 层 梯 度 。 

- cache: 缓存 (х, pool param )。 


Returns : 

-dx: x 梯度 。 

dx = None 

HHHH HHHH HHHH HHHH HHH HH HHHH HH HHH HAH HH HHHH HHH HH HHH HH HHH HHHH HHHH 
# 任务 : 实现 最 大 池 化 反 向 传播 。 # 


THHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHBHHHHHHHHHHHIE 
X, pool param = cache 
Hp = pool param[ 'pool height' ] 
Wp = pool param['pool width' ] 
S = pool param[ 'stride' ] 
N, C, H, W = x.shape 
HI -(H-Hp)/S-*1 
W1=(W-Wp)/S+1 
dx = np.zeros( (№, С, Н, W)) 
for nprime in range( N ) : 
for cprime in range( С): 
fork in range( H1 ) : 
for l іп range( W1 ) : 
x pooling = x[ nprime, cprime, k * S : k *S+Hp,1*S:1*S+Wp] 
maxi = np.max( x_pooling ) 
x_mask = x_pooling = maxi 
dx[ nprime, cprime,k *S:k*S+Hp, 
1*S:1*S+ Wp ] + = дош[ nprime, cprime , k, 1] * x mask 
HHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHBHHHE 
# 结束 编码 # 
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JHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHREHE 


return dx 
阅读 上 述 代 码 后 ， 完 成 最 大 池 化 的 反 向 传播 。 


max_pool_backward_naive 函数 代码 块 : 





def max_pool_backward_naive( дош, cache ) : 
最 大 池 化 反 向 传播 。 
Inputs : 
- dout : 上 层 梯度 。 
-cache : 缓存 (x, pool param )。 
Returns : 


-dx: x BARE. 


dx = None 

TIHHHHHHHHHHHHHHHHHBHHHHHHHHHHBHHHHHBHHHHHBHHHHHHBHBHHBHHBHHHHHBRAE 
# 任务 : 实现 最 大 池 化 反 向 传播 。 # 
AHH HH HHH HH HHH HHHH HHH HH H HHHH HHHH HH HHH HHHH HHH HH HHH HH HHHH HHH HH HHHH H 








AEH HEE H H E H E H E 
# 结束 编码 # 
TIHHHHHHHHHHHHHHHHBHHHBHHHHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHSHHNHE 


return dx 





完成 上 述 代码 后 ， 使 用 下 列 代码 进行 梯度 检验 。 





最 大 池 化 反 向 传播 梯度 检验 代码 块 : 








x = np.random.randn( 3, 2, 8, 8 ) 
dout = np.random.randn( 3, 2, 4.4 ) 
pool param = { 'pool_height': 2, 'pool width': 2, 'stride’: 2 } 
dx_num = eval_numerical_gradient_array( 
lambda x: max pool forward naive( x, pool param )[ 0 ], x, dout ) 
out, cache = max pool forward naive( x, pool param ) 
dx = max pool backward naive( dout, cache ) 
# 相对 误差 大 约 为 le-12。 
print ' 测 试 max pool backward naive В 
print 'dx 误差 : ,rel_error( dx, dx пит) 
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正确 编码 后 的 检验 结果 : 





测试 max pool backward naive PAR: 





dx 误差 : 3.27561726043е-12 


6.5.5 ”向 量化 执行 


达 不 到 我 们 的 需求 。 比较 有 效 的 方法 是 将 完全 向 量 版 本 的 卷 积 操作 使 用 Cython 转化 为 C 语言 
UT. (A Windows 下 需要 安装 诸多 依赖 库 ， 操 作 不 太 方便 。 因 此 我 们 会 在 第 8 章 中 使 用 
TensorFlow 在 GPU 环境 下 更 加 快速 地 执行 卷 积 网 络 。 此 处 只 进行 完全 向 量 版 本 的 执行 ,读者 
可 简单 地 阅读 下 列 代码 ， 然 后 执行 代码 ， 比 较 各 版 本 的 效率 ， 具 体 的 训练 卷 积 网 络 会 在 8.4 
章节 中 介绍 。 


° ”快速 郑 积 前 向 传播 





接 下 来 我 们 使 用 快速 的 卷 积 前 向 传播 操作 ， 该 部 分 不 做 要 求 ， 直 接 使 用 即 可 。 


conv forward fast 函数 代码 块 : 

def conv_forward_fast( x, w, b, conv_param ) : 
N, C, H, W = x.shape 
F, НН, WW = w.shape 
stride, pad = conv param[ 'stride' ], сопу param[ 'pad' ] 
assert ( W + 2 * pad — WW ) % stride = 0, ' 宽 度 异 常 ' 
assert ( H + 2 * pad — HH ) % stride == 0,' 高 度 异 常 ' 
p-pad # 零 填 充 。 
x padded =np.pad( x, ( ( 0, 0 ), (0,0 ), ( p. p ), ( p. p) ). mode= 'constant' ) 
# 计算 输出 维度 。 
Н+=2 * рай 
W +=2 * pad 
out_h=(H-HH)/stride + 1 
out_w = ( W — WW )/ stride + 1 
shape = ( C, HH, WW. N, out_h, out_w ) 
strides = ( H * W, W, 1, C * H * W, stride * W, stride ) 
strides = x.itemsize * np.array( strides ) 
x_stride = np.lib.stride tricks.as strided( x padded, shape = shape, strides = strides ) 
x cols = np.ascontiguousarray( x stride ) 
x cols.shape = (C * HH * WW, N * out h * ош у) 
# 将 所 有 卷 积 核 重 塑 成 一 行 。 
res = w.reshape( Е, -1 ).dot( x cols ) + b.reshape( -1, 1) 
# 重 塑 输出 。 














220 


第 6 章 ” 卷 积 神经 网 络 _ 








res.shape = ( Е, N, out_h, out_w ) 
out = res.transpose( 1, 0, 2, 3 ) 
out = np.ascontiguousarray( out ) 
cache = ( x, w, b, conv_param ) 


return out, cache 





阅读 完 上 述 代码 后 ， 执 行 下 列 代码 块 ， 比 较 快速 卷 积 和 多 循环 版 本 慢 速 卷 积 执行 效率 。 
比较 快速 卷 积 和 多 循环 版 本 慢 速 卷 积 执行 效率 的 代码 块 : 


from classifiers.chapter6.cnn_layers import conv_forward_fast 





from time import time 

x = np.random.randn( 100, 3, 31,31 ) 

w = np.random.randn( 25, 3, 3, 3 ) 

b = np.random.randn( 25, ) 

dout — np.random.randn( 100, 25, 16, 16 ) 

conv param = { 'stride": 2, 'pad': 1 } 

t0 = time( ) 

out naive, cache naive — conv forward naive( x, w, b, conv param ) 
tl = time( ) 

out fast, cache fast — conv forward fast( x, w, b, conv param ) 
t2 — time( ) 

print ‘Jit conv forward fast: 

print ' 慢 速 版 本 : %fs' % (11-10) 

print ' 快 速 版 本 : %fs' % (12 - tl) 

print 加 速 : %fx' % ( (t1 -t0) /(12-t0)) 


print 5 25: ', rel error( out. naive, out. fast ) 











快速 卷 积 与 慢 速 卷 积 的 执行 结果 : 
测试 conv_forward_fast: 

慢 速 版 本 : 0.188000s 

快速 版 本 : 0.024000s 

加 速 : 7.833277x 

误差 : 1.66546731637e-10 











© 快速 池 化 操作 





max pool forward fast 函数 代码 块 : 





def max_pool_forward_fast( x, pool_param ) : 
N, C, H, W = x.shape 
pool height = pool param[ 'pool height ] 
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pool width = pool param[ 'pool width' | 


stride = pool param( 'stride' ] 

assert pool height == pool width = stride, "Invalid pool params' 

assert H % pool height == 0 

assert W % pool height == 0 

x reshaped = x.reshape( N, C, H / pool height, pool height, W / pool width, pool width ) 
out = x_reshaped.max( axis = 3 ).max( axis =4 ) 

cache = ( x, x_reshaped, out ) 


return out, cache 








max_pool_backward_fast 函数 代码 块 : 
def max_pool_backward_fast( dout, cache ): 





X, x reshaped, out = cache 

dx reshaped = np.zeros like( x reshaped ) 

out newaxis = out[ : , : , : , np.newaxis, : , np.newaxis ] 

mask = ( x_reshaped == ош newaxis ) 

доші newaxis = dout[ : , : , : , np.newaxis, : , np.newaxis ] 

dout broadcast, _ = np.broadcast arrays( dout newaxis, dx reshaped ) 
dx reshaped[ mask ] = dout_broadcast[ mask ] 

dx reshaped / = np.sum( mask, axis = ( 3, 5 ), keepdims = True ) 

dx = dx. reshaped.reshape( x.shape ) 





return dx 





阅读 完 上 述 代码 后 ， 执 行 下列 代 码 ， 比 较 快 速 池 化 与 多 循环 慢 速 池 化 的 执行 效率 。 


比较 快速 池 化 和 多 循环 版 本 慢 速 池 化 执行 效率 的 代码 块 ; 

x = np.random.randn( 100, 3, 32, 32 ) 

dout = np.random.randn( 100, 3, 16, 16 ) 

pool param = í 'pool height': 2, 'pool width": 2, 'stride': 2 } 

10 = time( ) 

out naive, cache naive = max pool forward naive( x, pool param ) 
tl = time( ) 

out fast, cache fast = max pool forward fast( x, pool param ) 
12 =time( ) 

print Ў pool_forward_fast:' 

print ' 慢 速 版 本 : %fs' % ( t1 - t0) 

print ' 快 速 版 本 : о % (12-11) 

print 加 速 : %fx' % (( tl - 10) /(12-t1)) 

print X25: ', rel_error( out. naive, out. fast ) 


10 = time( ) 
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dx_naive = max_pool_backward_naive( dout, cache_naive ) 
tl = time( ) 
dx fast = max pool backward fast( dout, cache fast ) 
t2 = time( ) 
print 测试 pool backward fast: 
print ' 慢 速 版 本 : %fs' 9o (11-10) 
print ' 快 速 版 本 : Yofs' 9o ( 2 - t1) 
print "П: %fx' % (( tl - 10) /(12 -t1)) 
print 'dx 1x25: ', rel error( dx. naive, dx. fast ) 

















比较 池 化 前 向 传播 结果 : 比较 池 化 反 向 传播 结果 : 
测试 pool forward fast: 测试 pool backward fast: 
慢 速 版 本 : 0.007000s 慢 速 版 本 : 0.018000s 
快速 版 本 : 0.003000s 快速 版 本 : 0.014000s 
加 速 : 2.333307x 加 速 : 1.285690x 

误差 : 0.0 dx 误差 : 0.0 





656 ”组 合 完整 卷 积 层 


接 下 来 我 们 将 卷 积 、ReLU 和 池 化 组 合 在 一 起 ， 形 成 一 层 完 整 的 卷 积 层 。 该 部 分 内 容 和 
3.4.3 组 合 单 层 神经 元 小 节 中 介绍 的 组 合 ReLU JZ, HA Dropout 层 在 逻辑 结构 上 完全 相同 ， 
请 阅读 conv_relu_pool_forward 和 conv_relu_pool_backward 函数 代码 ， 然 后 进行 测试 。 


conv_relu_pool_forward 函数 代码 块 : 

def conv relu pool forward( x, w, b, conv param, pool param ) : 
a, conv cache = conv forward fast( x, w, b, conv param ) 
s, relu cache = relu forward( a ) 
out, pool cache = max pool forward fast( s, pool param ) 
cache = ( сопу cache, relu cache, pool cache ) 


return out, cache 








conv relu pool backward 函数 代码 块 : 

defconv relu pool backward( dout, cache ) : 
conv cache, relu cache, pool cache = cache 
ds = max pool backward fast( dout, pool cache ) 
da = relu backward( ds, relu cache ) 


dx, dw, db = сопу backward naive( da, conv cache ) 








return dx, dw, db 





使 用 下 列 代码 检验 完整 卷 积 层 。 
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检验 组 合 卷 积 层 梯度 代码 块 : 
x = np.random.randn( 2, 3, 16, 16 ) 





w = np.random.randn( 3, 3, 3, 3 ) 

b=np.random.randn( 3, ) 

dout = np.random.randn( 2, 3, 8, 8 ) 

conv param = í 'stride': 1, рай: 1 } 

pool param = í 'pool height': 2,'pool width': 2, 'stride': 2 } 

out, cache — conv relu pool forward( x, w, b, conv param, pool param ) 

dx, dw, db = conv relu pool backward( dout, cache ) 

dx num = eval numerical gradient array( lambda x: conv relu pool forward( 
X, w, b, conv param, pool param )[ 0 ], x, dout ) 

dw num = eval numerical gradient array( lambda w: conv relu pool forward( 
X, w, b, сопу param, pool param )[ 0 ], w, dout ) 

db num = eval numerical gradient array( lambda b: conv relu pool forward( 
X, w, b, conv param, pool param )[ 0 ], b, dout ) 

print "Ў сопу relu роо! 

print 'dx 3x25: ', rel. error( dx. num, dx ) 

print 'dw 误差 : ', rel. еггог( dw. num, dw ) 

print 'db 误差 : ', rel error( db. num, db ) 





梯度 检验 结果 : 

测试 conv_relu_pool 

dx 误差 : 2.79713149752e-07 
dw 误差 : 1.02470162321e-09 
db 误差 : 5.07494290358e-11 








6.5.7” 浅 层 卷 积 网 络 





接 下 来 我 们 实现 简单 的 浅 层 卷 积 网 络 ， 该 网 络 由 一 层 卷 积 层 ， 两 层 全 连接 层 组 成 : 输入 
-conv-relu-(2 X 2)maxpool-affine-relu-affine-softmax 。 1] Jf ^ DLAction/classifiers/chapter6/ 
спп.ру” (Е, SCHL ThreeLayerConvNet 类 。 














权重 初始 化 代码 块 : 
def init (self, input dim = ( 3, 32, 32 ), num filters = 32, filter size = 7, 





hidden dim = 100, num classes = 10, weight scale = le-3, reg = 0.0, ) : 
初始 化 卷 积 网 络 。 
Inputs: 
-input dim: 输入 数据 形状 ( C,H, W )。 
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жов ” 卷 积 神经 网 络 = 


-num filters: 卷 积 核 数量 。 

- filter size: 卷 积 核 尺 寸 。 

- hidden dim: 全 连接 层 隐 藏 层 个 数 。 
- num_classes: 分 类 个 数 。 

- weight scale: 权重 规模 RÆ) 。 
- reg: 权重 衰减 因子 。 


won 








self.params = { } 

self.reg = reg 

TERETE HEE H HHHH H HHH HEE HHHH H HHHH H HHHH H HEHHE H HHHH H HHA A HHHH HHAH HHH HHHH 
# 任务 : 初始 化 权重 参数 。 # 
# 'W1' 为 卷 积 层 参 数 ， 形 状 为 ( num_filters, C, filter size, filter size ). 

# 'W2' 为 卷 积 层 到 全 连接 层 参数 ， 形 状 为 ( (H/2)*(W/2)* 

# num filters, hidden_dim )。 

# "W3' 隐 藏 层 到 全 连接 层 参 数 。 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHBHHHHHBHHHHHHHRHHHHHRHE 


dk о ж ж Gb 


THHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHBHHHHHBHHHHHHHHHHHHHHBHHHHHHHBHHHHE 
# 结束 编码 # 
THHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHBHBHHHHHBHHHHHHHHHHHHHHBHHHHHHHBHHHHE 


损失 函数 代码 块 : 

def loss( self, X, у = None ) : 
Wl, bl =self.params[ 'W1' ], self.params[ 'b1' ] 
W2, b2 = self.params[ 'W2' ], self.params[ 'b2' ] 
W3, b3 = self.params[ 'W3' ], self.params[ 'b3' ] 
filter size = W1.shape[ 2 ] 
conv param = { 'stride': 1, 'pad': ( filter size — 1 )/2 } 
pool param = í 'pool height': 2, 'pool width': 2, 'stride': 2 } 
scores = None 


THHHHHHHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHE 


# 任务 : 实现 前 向 传播 过 程 。 # 
# 计算 每 类 得 分 ， 将 其 存放 在 scores 中 。 # 


THHHHHBHBHHBHHBHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
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HHHH: AHHH HEHH HH HHE H HEHEHEH H HEHH H HHH HH H HHEH HH HHH H HH HHHH H HHH HHH HH 








# 结束 编码 # 
UUHHHHBHHHHBHHBHHHHHBHHHHHHHHBHEHHHHHBHHHHHBHHHHHBHBHHHHHBHHHHHIE 
if y is None: 

return scores 


loss, grads = 0, { } 

EHHE HEHHEHE HEHEHEHEH HEH HEHEHEHEHE HHEH HEH HHEH HHH HH HHH H HHH HH HHHH HAHH H HHH HH HHH 
# 任务 : 实现 反 向 转播 。 # 
# 注意 : 别 忘 了 权重 衰减 项 。 # 
THHHHHHHHHHHHHHHHHHHBHHHHHBHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHE 


THHBHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHBHHHE 
# 结束 编码 # 
TIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHBHHHBHHHHHBHHHHHHHHHHRHHNE 


return loss, grads 








° ”损失 值 检 验 


完成 上 述 代 码 后 ， 执 行 下 列 代 码 ， 进 行 简单 的 损失 值 检验 。 注 意 在 不 添加 正则 化 的 情况 
F, c 分 类 任务 初始 时 的 损失 值 应 该 接近 于 log(c)， 运 行 下 列 代码 。 


检验 三 层 卷 积 网 络 损失 值 : 

model = ThreeLayerConvNet( ) 

N=50 

X = np.random.randn( N. 3, 32, 32 ) 

у = np.random.randint( 10, size = М) 

loss, grads = model.loss( X, y ) 

print ' 初 始 损失 值 所 对 应 分 类 (无 正则 化 ): ', np.exp( loss ) 
model.reg = 0.5 

loss, grads = model.loss( X, y ) 

print ' 初 始 损失 值 (正则 化 ): ', loss 








正确 编码 后 的 检验 结果 : 
初始 损失 值 所 对 应 分 类 (无 正则 化 ): 9.99998941045 
初始 损失 值 (正则 化 ): 2.50850657265 
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。 ”梯度 检验 
接 下 来 进行 梯度 检验 ， 运 行 下 列 代码 。 
浅 层 卷 积 网 络 梯度 检验 : 


num inputs = 2 
input dim = (3, 16, 16 ) 
reg = 0.0 





num classes = 10 
X = np.random.randn( num inputs, *input dim ) 
y = np.random.randint( num classes, size = num inputs ) 
model = ThreeLayerConvNet( num filters = 3, filter size = 3, input dim = input dim, hidden dim = 7 ) 
loss, grads = model.loss( X, у) 
for param name in sorted( grads ) : 
f= lambda : model.loss( X, y )[ 0] 
param grad num = eval numerical gradient( f, model.params[ param name ], verbose = False, h = le-6 ) 
е = rel error( param grad num, grads[ param пате ] ) 
print '%s 最 大 相对 误差 : %e' % ( param. name, rel. error( 


param grad num, grads[ param name ] ) ) 








正确 编码 后 的 梯度 检验 结果 : 
W1 最 大 相对 误差 : 1.515827e-03 
W2 最 大 相对 误差 : 6.044095e-03 


W3 最 大 相对 误差 : 2.775748e-05 
bl 最 大 相对 误差 : 4.377705e-05 
b2 最 大 相对 误差 : 1.020082e-06 
b3 最 大 相对 误差 : 1.250405e-09 





€ ”过 拟 合 少量 数据 

运行 下 列 代码 , 确保 在 少量 数据 集 上 出 现 明显 的 过 拟 合 现 象 , 可 视 化 示意 图 分 别 如 图 6-13 
和 图 6-14 所 示 。 
测试 浅 层 卷 积 网 络 小 数据 过 拟 合 代码 块 : 


num train= 100 








small_data = { 
'X_train': data[ 'X train' ][ : num train ], 


'y_train': data[ 'y_train' ][ : num train ], 
'X val': data[ 'X val' ], 
'y_val': data[ 'y_val' ], 
j 
model = ThreeLayerConvNet( weight scale = le-2 ) 
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trainer = Trainer( model, small_data, 
num_epochs = 20, batch_size = 50, 
update rule = 'adam', 
updater config = í 'learning rate": le-3, }, 
verbose = True, print every = 5 ) 


trainer.train( ) 








训练 结果 : 

GEAR 1/40) 损失 值 : 2.349292 

(周期 0/20) 训练 精度 : 0.210000; 验证 精度 : 0.142000 
GEAR 31/40) 损失 值 : 0.194024 

(周期 16 /20) 训练 精度 : 0.950000; 验证 精度 : 0.203000 
(周期 17/20) 训练 精度 : 0.970000; 验证 精度 : 0.210000 
GERR 36/40) 损失 值 : 0.054560 

(周期 18 /20) 训练 精度 : 0.970000; 验证 精度 : 0.204000 
(周期 19 /20) 训练 精度 : 1.000000; 验证 精度 : 0.193000 
(周期 20 /20) 训练 精度 : 1.000000; 验证 精度 : 0.216000 





可 视 化 训练 结果 : 

plt.subplot( 2, 1, 1 ) 

plt.title( "Training loss', fontsize = 18 ) 

plt.plot( trainer.loss_history, 'o' ) 

plt.xlabel( ‘iteration’, fontsize = 18 ) 

plt.ylabel( 'loss', fontsize = 18 ) 

plt.subplot( 2, 1, 2 ) 

plt.subplots adjust( left — 0.08, right — 0.95, wspace — 0.25, hspace — 0.3 ) 
plt.title( 'train accuracy VS val accuracy’, fontsize = 18 ) 
plt.plot( trainer.train acc history, '-o' ) 

plt.plot( trainer.val acc history, '-*' ) 

plt.legend( [ 'train', 'val' ], loc = 'upper left’ ) 

plt.xlabel( 'epoch', fontsize — 18 ) 

plt.ylabel( 'accuracy', fontsize = 18 ) 








plt.show( ) 
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Training loss 








0 5 10 15 20 25 зо 35 40 
iteration 


图 6-13 损失 函数 变化 曲线 


train accuracy VS val accurac 





accuracy 





图 6-14 训练 精度 、 验 证 精度 变化 曲线 


6.5.8 空间 批量 归 一 化 


BND9 算 法 是 一 种 高 效 实 用 的 技术 ， 大 大 加 快 了 网 络 训练 。 但 BN 算法 通常 使 用 在 全 连接 
网 络 中 ， 因 此 在 卷 积 网 络 中 会 有 一 点 修改 ， 我 们 将 其 称 为 空间 批量 归 一 化 〈Spatial Batch 
Normalization, SBN) 。 默 认 情况 下 ，BN 接收 CN,D) 数据 进行 批量 归 一 化 操作 ， 因 此 ， 我 
们 需要 将 BN 算法 调整 为 接收 (N,C,H,W) 数据 。 由 于 之 前 我 们 已 经 编写 好 了 BN 算法 , 现在 
只 需要 将 图 片 数 据 重 塑 成 (N,D) ， 然 后 调用 实现 好 了 的 BN 算法 ， 之 后 再 将 其 输出 结果 重 塑 
E] (N,C,H,W) 即 可 。 


° SBN 前 向 传播 





打开 “DLAction/classifiers/chapter6/cnn_layers.py” 文 件 ， 实 现 spatial_batchnorm_forward 
函数 ， 完 成 后 运行 检验 代码 进行 测试 。 
| spatial batchnorm forward 函数 代码 块 : 
def spatial_batchnorm_forward( x, gamma, beta, bn param ) : 








т" 


空间 批量 归 一 化 前 向 传播 。 
Inputs: 
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-x: 数据 (N,C, Н, №). 
-gamma: 缩放 因子 (C, )。 
- beta: 偏 移 因子 (C, )。 
-bn param: 参数 字典 : 
- mode: 'train' or 'test'; 
-eps: 数值 稳定 常数 。 
- momentum: 运行 平均 值 衰减 因子 。 
- running_mean: 形状 为 ( D. ) 的 运行 均值 。 
-mnning var : 形状 为 (D, ) 的 运行 方差 。 
Retums 元 组 : 
-out: 输 出 (N, C, H, №). 
- cache: 用 于 反 向 传播 的 缓存 。 
out, cache = None, None 
AHHH HHHH HHH HH HHH HH HHHH HHH HH HHHH HR HHH HRH HH HHHH HHH HH HHHH Gua 
# 任务 : 实现 空间 BN 算法 前 向 传播 。 # 
# 提示 : 只 需要 重 塑 数据 ， 调 用 batchnorm_forward 函数 即 可 。 # 
HHRHH EE HAE HE HHHH HHRHH HHHH HHHH HHHH HH HHHH HRH HHRHH HHRHH HHRHHHH 


THHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHHBHBHHBHHHHHBHHHBHHBHHHHHBHHHHBHHHE 
# 结束 编码 # 
HELE HEHE H HE HH HH a a u a au ad 


return out, cache 





完成 上 述 代 码 后 ， 使 用 下 列 代 码 进行 测试 ， 首 先 我 们 测试 训练 模式 。 


测试 SBN 前 向 传播 训练 模式 代码 块 : 

# 训练 阶段 :SBN 前 向 传播 。 

N, C, H, W=2,3,4,5 

x = 4 * np.random.randn( N, C, H, W ) + 10 
print "使 用 BN 之 前 : 

print' 数据 形状 : ', x.shape 

print' 均值 : ', x.mean( axis = ( 0, 2,3 ) ) 
print' 标准 差 :', x.std( axis = ( 0, 2, 3 ) ) 
gamma, beta = np.ones( C ), np.zeros( C ) 





bn param = { mode': 'train' } 
out, _ = spatial_batchnorm_forward( x, gamma, beta, bn param ) 
print "使 用 BN 5: 
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print' 输出 数据 形状 :outshape 

print' 均值 : ', out.mean( axis = ( 0, 2, 3 ) ) 

print' 标准 差 :, out.std( axis =( 0, 2, 3 ) ) 

gamma, beta = np.asarray( [ 3, 4, 5 ]), np.asarray( [ 6, 7, 8 ] ) 


out, - spatial batchnorm forward( x, gamma, beta, bn param ) 
print '7E BN Ja ft (ватта, beta) 进 行 缩放 :" 

print' 输出 数据 形状 :outshape 

print' 均值 : ', out.mean( axis = ( 0, 2, 3 ) ) 

print' 标准 差 :, out.std( axis = ( 0, 2, 3 ) ) 











训练 阶段 SBN 前 向 传播 测试 结果 : 

使 用 BN 之 前 : 

数据 形状 : (2L, 3L, 4L, 5L ) 

均值 : [10.66668148 10.72390629 10.26857762 ] 
标准 差 : [4.11024553 4.02371795 3.75411333 ] 
使 用 BN 后 : 

输出 数据 形状 : (2L, 3L, 4L, 5L ) 

均值 : [-5.49560397e-16 1.85962357е-16 -7.91033905е-16 ] 
标准 差 : [0.9999997 0.99999969 0.99999965 ] 
在 BN 后 使 用 ( gamma, beta ) 进 行 缩放 : 

输出 数据 形状 : (2L, 3L, 4L, 5L ) 

均值 : [6. 7. 8.] 

标准 差 : [2.99999911 3.99999876 4.99999823 ] 











接 下 来 ， 我 们 测试 SBN 前 向 传播 中 的 测试 模式 。 
测试 SBN 前 向 传播 测试 模式 代码 块 : 





# 测试 阶段 : SBN 前 向 传播 。 
М, С,Н, W = 10, 4, 11, 12 
bn param = í 'mode": 'train' } 


gamma - np.ones( C ) 
beta = np.zeros( C ) 
for t in xrange( 50 ) : 
x = 2.3 * np.random.randn( №, C, H, W ) + 13 
spatial batchnorm forward( x, gamma, beta, bn param ) 
bn param[ 'mode' | = 'test’ 
x = 23 * np.random.randn( N, C, H, W ) + 13 
a norm, = spatial batchnorm forward( x, gamma, beta, bn param ) 
print' 均值 :', а norm.mean( axis = (0, 2,3 )) 
print' 标准 差 :, a_norm.std( axis = ( 0, 2,3 )) 
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SBN 测试 模式 检验 结果 : 
均值 : [0.02892776 0.0520456 0.0546018 0.01706541] 





标准 差 : [0.99260738 0.99075435 0.97366721 0.9950839 ] 


。 SBN 反 向 传播 


接 下 来 打开 “DLAction/classifiers/chapter6/cnn_layers.py” 文 件 ， 实 现 spatial_batchnorm_ 
backward 函数 ， 完 成 后 运行 梯度 检验 代码 进行 测试 。 


spatial batchnorm backward 函数 代码 块 : 


def spatial_batchnorm_backward( dout, cache ) : 








т" 


空间 批量 归 一 化 反 向 传播 。 
Inputs: 
- dout: 上 层 梯度 ( N, C,H, W )。 
-cache: 前 向 传播 缓存 。 
Returns 元 组 : 
- dx: 输 入 梯度 ( N, C, H, W )。 
- dgamma: gamma 梯度 ( C, )。 
- dbeta: beta 梯度 (C, )。 
dx, dgamma, dbeta = None, None, None 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHNE 
# 任务 : 实现 空间 BN 算法 反 向 传播 。 # 
# 提示 : 只 需要 重 塑 数据 调用 batchnorm backward alt 函数 即 可 。 # 
THHHHHHHHHHHHBHHHHHBHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHINE 


THHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHHHHIE 
# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHRHHIE 
return dx, dgamma, dbeta 





完成 上 述 代码 后 ， 使 用 下 列 代码 进行 梯度 检验 。 


SBN 反 向 传播 梯度 检验 代码 块 : 
N, C, H, W = 2, 3, 4,5 
x = 5 * nprandom.randn( №, C, Н, W ) + 12 





gamma = np.random.randn( C ) 


beta — np.random.randn( C ) 
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dout = np.random.randn( N, C, H, W ) 

bn param = { 'mode": 'train' } 

fx = lambda x: spatial batchnorm forward( x, gamma, beta, bn param )[ 0] 
fg = lambda a: spatial batchnorm forward( x, gamma, beta, bn param )[ 0] 
fb = lambda b: spatial batchnorm forward( x, gamma, beta, bn param )[ 0] 
dx num = eval numerical gradient array( fx, x, dout ) 

da num = eval numerical gradient array( fg, gamma, dout ) 

db num = eval numerical gradient array( fb, beta, dout ) 

_, cache = spatial batchnorm forward( x, gamma, beta, bn. param ) 

dx, dgamma, dbeta — spatial batchnorm backward( dout, cache ) 

print 'dx 误差 : ', rel_error( dx num, dx ) 

print'dgamma 误差 : ', rel error( da num, dgamma ) 

print 'dbeta 误差 : ', rel error( db. num, dbeta ) 


SBN 反 向 传播 梯度 检验 结果 : 

dx 误差 : 1.65364732287e-08 
dgamma 误差 : 2.37670881079e-12 
dbeta 误差 : 1.47269855681е-11 





66 参考 代码 


卷 积 前 向 传播 代码 块 : 
def conv_forward_naive( x, w, b, conv_param ) : 
out = None 
N, C, H, W = x.shape 
F, , HH, WW = w.shape 
stride, pad = conv_param[ 'stride' ], сопу param[ 'pad' ] 
H out = 1 + ( H + 2 * pad — HH ) / stride 
W_out = 1 + ( W +2 * pad - WW ) / stride 
out = np.zeros( ( N ,F , Н ош, № ош ) ) 
x. pad = np.pad( x, ( (0, ), (0, ), (рай, ) , ( pad ,) ), 
mode = 'constant’, constant. values = 0 ) 
for i in range( H ош): 


for j in range( W_out ) : 





x pad masked = x pad[: ,: , i * stride : i * stride + HH, j * stride : j * stride + WW ] 


for k in range( F ) : 
out[:, k,i,j ] = np.sum( 
x pad masked * w[ К, :,:,: ], axis=( 1,2,3 )) 


out = out + ( b )[ None, :, None, None ] 
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cache = ( x, w, b, conv_param ) 


return out, cache 





conv_backward_naive 函数 代码 块 : 





def conv_backward_naive( dout, cache ) : 
dx, dw, db = None, None, None 
x, w, b, conv_param = cache 
N, C, H, W = x.shape 
F, , HH, WW = w.shape 
stride, pad = conv_param[ 'stride' ], conv param[ 'pad' ] 
H_out= 1 + ( H +2 * pad — HH ) / stride 
W_out = 1 + ( W + 2 * pad - WW )/stride 
x pad = np.pad( x, ( ( 0, ), ( 0, ), (рай, ), (рай, ) ), 
mode = 'constant', constant_values = 0 ) 
dx = np.zeros_like( x ) 
dx рай = np.zeros_like( x pad ) 
dw = np.zeros like( w ) 
db = np.zeros like( b ) 
db = np.sum( dout, axis = ( 0,2, 3)) 
x pad = np.pad( x, ( ( 0, ), ( 0, ), ( pad, ), (рай, ) ), 
mode = 'constant', constant values = 0 ) 
foriinrange(H out ): 
for j in гапре( W out ) : 
x pad masked = x рай[:, :, і * stride : i * stride + HH, j * stride : j * stride + WW ] 
fork in range(F): #it# dw 
dw[k,:,:,:]-* = np.sum(x pad masked * 
( dout[ : , К, i, j ] ) [ : None, None, None ], axis = 0 ) 
for n in range( №) :# 计 算 dx. pad 
dx pad[n,:, i * stride : i * stride + HH, j * stride : j * stride + WW ] + = np.sum( 
(Cw[:.:.:.:] * дощ п, : i,j] )[:, None None, None ] ), axis = 0) 

dx = іх рай[:, : , рай: -pad , рай: -pad ] 


return dx, dw, db 











max_pool_forward_naive 函数 代码 块 : 





def max_pool_forward_naive( x, pool_param ) : 
out = None 
N, C, H, W = x.shape 
HH = pool param[ 'pool_height' ] 





WW = pool param[ 'pool_width' ] 
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stride = pool_param| 'stride' ] 
Н out - ( H— HH ) / stride + 1 
W_out = ( W — WW )/ stride + 1 


out = np.zeros( ( N, C, H_out, W_out ) ) 
for i in xrange( Н ош): 


for j in xrange( W_out ) : 





x masked = x[ :, : , i * stride : i * stride + HH, j * stride : j * stride + WW ] 





out[ :,:, i,j ]=mp.max( x masked, axis = (2, 3) ) 
cache = ( x, pool param ) 


return out, cache 








max pool backward naive 函数 代码 块 ， 


def max pool backward naive( dout, cache ) : 





dx = None 

x, pool_param = cache 

N, C, H, W = x.shape 

НН =pool_param[ 'pool_height' ] 

WW = pool param[ 'pool_width' ] 

stride = pool_param| 'stride' ] 

Н out - ( H— HH ) /stride + 1 

W out - ( W - WW )/ stride + 1 

dx = np.zeros like( x ) 

for i in xrange( Н ош): 

for j in xrange( W out ) : 

x masked = x[: ,: , i * stride : i * stride + HH, j * stride : j * stride + WW] 
max x masked = np.max( x masked, axis = ( 2, 3) ) 


temp binary mask = ( x masked == ( max x masked )[ :, :, None, None] ) 








dx[ : , : ji * stride : i * stride + HH, j * stride : j * stride + WW ] += 
temp binary mask * ( dout[ :,:,i,j])[:,:, None, None] 
return dx 
权重 初始 化 代码 块 : 





def init (self, input dim = ( 3, 32, 32 ), num filters = 32, filter size = 7, 
hidden dim = 100, num classes = 10, weight scale = le-3, reg = 0.0, ): 
self.params = { 
self.reg = reg 
C, H, W = input dim 


self.params[ 'W1' ] = weight scale * np.random.randn( num filters, C, filter size, filter size ) 





self.params[ 'bl' ] = np.zeros( num filters ) 
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self.params[ 'W2' ] = weight scale * np.random.randn( ( H / 2 ) * ( W / 2 ) * num filters, hidden dim ) 


self.params[ 'b2' ] = np.zeros( hidden dim ) 
self.params[ 'W3' ] = weight scale * np.random.randn( hidden dim, num classes ) 


self.params['b3'] = np.zeros( num classes ) 








损失 函数 代码 块 : 

def loss( self, X, y = None ): 
МІ, b1 = self.params[ 'WI' ], self.params[ 'b1' ] 
W2, b2 = self.params[ 'W2' ], self.params[ 'b2' ] 
W3, b3 = self.params[ 'W3' ], self.params[ 'b3' ] 
filter size = W1.shape[ 2 ] 





conv param = { 'stride': 1, ‘pad’: ( filter_size—1 )/2 } 
pool param = { 'pool height': 2, 'pool_width': 2, 'stride': 2 } 
scores = None 
conv forward out l,cache forward 1 = conv relu pool forward( X, self.params[ 'W1' ], 
self.params[ "bl ], сопу param, pool param ) 
affine forward out 2, cache forward 2 = affine forward( conv forward out 1, 
self.params[ 'W2' ], self.params[ 'b2' ] ) 
affine relu 2, cache relu 2 = relu forward( affine forward out 2 ) 
scores, cache forward 3 = affine forward(affine relu 2, self.params[ 'W3' ], self.params[ 'b3' ] ) 
if y is None: 
return scores 
loss, grads = 0, í } 
loss, dout — softmax loss( scores, y ) 
loss + = self.reg * 0.5 * ( np.sum( self.params[ 'W1' ] ** 2 ) 
+ np.sum( self.params[ "W2' ] ** 2 ) 
+ np.sum( self.params[ 'W3' ] **2)) 
dX3, grads[ 'W3' ], grads[ 'b3' ] = affine backward( дош, cache forward 3) 
dX2 = relu backward( dX3, cache relu 2) 
dX2, grads[ "W2' ], grads[ 'b2' ] = affine backward( dX2, cache forward 2 ) 
ахі, grads[ 'W1' ], grads[ 'bl' ] = conv relu pool backward( dX2, cache forward 1) 
grads[ 'W3' ] = grads[ 'W3' ] + self.reg * self.params[ 'W3' ] 
grads[ 'W2' ] = grads[ 'W2' ] + self.reg * self.params[ 'W2' ] 
grads[ 'W1' ] = grads[ 'W1' ] + self.reg * self.params[ 'W1' ] 


return loss, grads 








spatial batchnorm forward 函数 代码 块 : 





def spatial_batchnorm_forward( x, gamma, beta, bn param ) : 








out, cache = None, None 
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N, C, H, W = x.shape 
temp output, cache = batchnorm_forward(x.transpose( 0, 3, 2, 1 ).reshape( ( N * H * W, C )), 


gamma, beta, bn_param ) 
out = temp output.reshape( N, W, H, С ).transpose( 0, 3, 2, 1 ) 


return out, cache 








spatial_batchnorm_backward 函数 代码 块 : 


def spatial_batchnorm_backward( dout cache ) : 





dx, dgamma, dbeta = None, None, None 

N,C,H,W = dout.shape 

dx temp, dgamma, dbeta = batchnorm backward alt( 
dout.transpose( 0, 3, 2, 1 ).reshape( ( N * H * W, C ) ), cache ) 

dx = dx temp.reshape( №, W, H, C ).transpose( 0,3, 2. 1 ) 





return dx, dgamma, dbeta 
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在 本 书 前 面 章节 的 介绍 中 ， 神 经 网 络 总 是 单 向 的 ， 从 输入 层 到 低级 隐藏 层 ， 再 从 低级 隐 
藏 层 到 高 级 隐藏 层 ， 最 后 再 到 输出 层 。 但 不 管 网 络 有 多 少 层 ， 都 是 一 层 一 层 地 前 向 输出 。 但 
这 其 实 是 有 问题 的 ， 因 为 这 种 前 馈 结 构 需 要 假设 数据 是 独立 同 分 布 ， 但 现实 中 有 很 多 复杂 的 
数据 都 不 满足 这 个 条 件 ， 例 如 音频 数据 、 视 频数 据 及 自然 语言 数据 等 。 当 我 们 将 一 篇 英文 文 
本 翻译 成 中 文 文 本 时 ， 句 子 之 间 ， 段 落 之 间 是 存在 上 下 文 关系 的 ， 在 特定 的 情景 中 单词 的 意 
义 也 不 一 样 。 并 且 这 些 数据 的 长 度 还 不 一 样 ， 我 们 很 难 规格 化 这 些 序列 数据 去 训练 ， 因 此 前 
馈 网 络 很 难处 理 这 类 变 长 的 序列 数据 。 当 然 ， 我 们 也 可 以 将 整 篇 文章 当 作 一 条 文本 数据 ， 将 
整 段 音频 当 作 一 条 音频 数据 一 次 性 输入 前 馈 网 络 中 学 习 ， 但 这 样 的 做 法 数据 维度 实在 高 得 难 
以 想象 ， 并 会 产生 可 怕 的 维度 灾难 〈Curse of Dimensionality) 趾 。 另 一 种 方式 就 是 对 序列 数据 
进行 切割 ， 例 如 将 机 器 翻译 任务 中 的 一 篇 文章 切 成 段落 训练 ， 或 者 将 段落 切 成 句子 训练 ， 将 
手写 识别 的 句子 切 成 一 个 个 的 单词 进行 识别 训练 。 但 这 需要 很 强 的 人 为 干预 ， 数 据 切 分 越 细 
致 ， 数 据 的 上 下 文 关系 就 破坏 得 越 严重 ， 并 且 数 据 切 分 不 合理 也 会 引入 很 强 的 人 为 噪声 。 

为 了 有 效 地 处 理 这 类 序列 数据 ， 我 们 允许 神经 网 络 进行 横向 连接 。 当 前 的 网 络 输出 不 仅 
依赖 于 当前 的 输入 信息 ， 还 依赖 之 前 的 数据 信息 ， 而 这 类 网 络 结构 就 是 本 章 的 主角 一 一 循环 
神经 网 络 (Recurrent Neural Network, RNN) 口 。 

在 7.1 节 中 ， 我们 将 把 循环 神经 网 络 展 开 ， 仔 细 介 绍 循环 网 络 的 前 向 传播 以 及 反 向 传播 

在 7.2 节 中 ， 我 们 将 会 介绍 循环 网 络 的 一 些 变 种 ， 典 型 的 结构 有 双向 循环 网 络 、 编 码 - 解 
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码 网 络 和 深度 循环 网 络 等 。 

在 7.3 节 中 ， 我们 将 重点 介绍 一 种 带 有 门 控 功 能 的 特殊 循环 神经 网 络 一 一 LSTM， 它 是 实 
际 应 用 中 效果 最 佳 的 循环 网 络 之 一 。 

在 7.4 节 中 ,我 们 将 一 步 一 步 地 完成 简单 RNN 网 络 的 前 向 传播 与 反 向 传播 编码 ， 然 后 使 


用 RNN 完成 自动 图 片 说 明 任 务 。 
在 7.5 节 中 ， 我 们 将 完成 LSTM 网 络 的 前 向 传播 与 反 向 传播 编码 ， 然 后 使 用 其 完成 自动 
图 片 说 明 任 务 。 


这 里 需要 注意 的 是 ， 循 环 神经 网 络 有 时 也 会 被 翻译 成 递归 神经 网 络 ， 但 这 对 于 真正 的 递 
归 网 络 (Recursive Neural Network) 中 是 不 公平 的 。 循 环 网 络 代 表 信 息 在 时 间 维 度 从 前 往 后 的 
传递 和 积累 ， 其 展开 是 一 个 链 式 结构 ， 应 用 在 机 器 翻译 中 是 假设 句子 后 面 的 信息 和 句子 之 前 
的 信息 有 关 。 而 递归 网 络 在 空间 维度 的 展开 是 一 个 树 结构 ， 应 用 在 机 器 翻译 中 就 是 假设 句子 
是 一 个 树 状 结构 ， 由 几 个 部 分 〈 主 语 ， 谓 语 ， 宾 语 ) 组 成 ， 每 个 部 分 又 可 以 再 分 成 几 个 小 部 
分 ， 即 某 一 部 分 的 信息 由 它 的 子 树 组 合 而 来 。 本 章 我 们 介绍 的 是 第 一 种 循环 网 络 (Recurrent 
Neural Network) ， 并 不 涉及 递归 网 络 (Recursive Neural Network) 。 


7.1 ”循环 神经 网 络 


循环 神经 网 络 的 结构 其 实 非常 简单 ， 相 较 典型 的 前 馈 神经 网 络 ， 仅 仅 将 网 络 隐藏 层 的 输 
出 《也 可 以 是 输出 层 的 输出 ) 重新 连接 回 隐藏 层 ， 形 成 一 个 闭环 。 我 们 也 可 以 理解 成 是 在 前 
馈 网 络 中 加 入 了 记忆 单元 ， 当 神经 元 前 向 传播 时 ， 隐 藏 层 除 了 向 网 络 的 前 端 输出 信息 ， 还 会 
将 信息 保存 在 记忆 单元 中 。 当 执行 下 一 条 数据 时 ， 会 将 下 一 条 数据 与 当前 存储 在 记忆 单元 的 
信息 ， 一 起 输入 到 隐藏 层 中 进行 特征 提取 ， 然 后 再 将 处 理 后 的 信息 保存 进 记忆 单元 。 

假设 有 一 条 长 度 为 了 的 序列 六 T 和 五 分 别 表示 RNN 的 输入 单元 与 隐藏 单元 数量 ， 如 式 
(7.1) Al (7.2) 所 示 ， 为 循环 网 络 的 前 馈 输 出 。 


I H 
а, = A Wax, + pr Wry Di (7.1) 
ial ка 


bi = f(a) (7.2) 


Job x! 表示 第 1 时 刻 序列 数据 x 的 第 7 维 ，a; 和 如 分 别 表示 1 时 刻 第 j 隐藏 单元 的 输入 值 
Cyl Wa 表示 输入 层 第 i 单元 与 隐藏 层 p 单元 的 连接 权重 ， wi 表示 隐 藏 层 太 单元 与 隐 
藏 层 单元 的 连接 权重 ，b 表 示 1-1 时 刻 隐 藏 层 及 单元 的 激活 值 。 

需要 注意 的 是 ， 在 第 1 时 刻 ， 也 就 是 序列 第 一 条 数据 输入 网 络 时 ， 隐 藏 层 还 没有 激活 
值 ， 因 此 我 们 会 设置 册 =0。 当 然 ， 如 果 我 们 执行 类 似 图 像 说 明 这 样 的 联合 RNN 与 CNN 的 任 
务 时 ， 忆 就 为 卷 积 网 络 的 输出 特征 。 


7.1.1 ”循环 神经 元 展开 





为 了 更 好 地 说 明 循环 神经 网 络 的 工作 模式 ， 如 图 7-1 所 示 ， 我 们 将 序列 数据 按照 时 间 维 
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度 展开 。 假 设 我 们 的 序列 长 度 为 上 那么 该 神经 网 络 就 有 : 层 隐藏 层 ，1 层 输 入 层 。 其 中 隐藏 
层 之 间 的 连接 ， 以 及 输入 层 到 隐藏 层 的 连接 都 是 共享 的 。 

如 果 以 静态 的 方式 看 待 循环 神经 网 络 ， 那 该 网 络 就 非常 的 “怪异 ”: 虽然 它 有 + 层 隐藏 
层 ， 是 非常 深 的 神经 网 络 ， 但 却 层 层 参数 共享 ， 实 际 上 只 有 三 套 参数 ， 输 入 层 到 隐藏 层 参 数 
U， 隐 藏 层 到 隐藏 层 参数 Ww. ES ES у. 





图 7-1 循环 神经 网 络 展开 示意 图 
这 样 的 参数 共享 结构 有 以 下 两 个 主要 优点 。 


1. 无 论 序列 的 长 度 多 长 ， 学 习 模型 始终 具有 相同 大 小 的 输入 。 
2. 由 于 每 个 时 间 步 的 参数 都 相同 ， 因 此 我 们 可 以 使 用 相同 的 转移 函数 学 习 。 


这 两 个 因素 使 得 我 们 不 需要 针对 每 个 时 间 片 段 配置 特定 的 参数 ， 学 习 单 独 的 函数 。 我 们 
只 需要 学 习 一 个 转移 函数 即 可 ， 这 样 既 可 以 节约 大 量 的 参数 ， 并 且 也 有 利于 提升 模型 的 泛 化 
能 力 ， 可 以 很 方便 地 使 用 网 络 处 理 任 意 长 的 序列 数据 。 


7.1.2 ”循环 网 络 训练 


通常 ， 我 们 使 用 时 间 反 向 传播 (BackPropagation Through Time, BPTT) 外 算法 训练 循环 
神经 网 络 。 它 是 BP 算法 应 用 在 循环 网 络 上 的 一 种 扩展 形式 ,如果 将 循环 网 络 展开 成 一 个 深层 
参数 共享 网 络 ， 那 么 将 此 算法 看 作 BP 算法 即 可 。 如 果 对 BP 算法 的 整个 过 程 还 显 生 朴 ， 建 议 
再 返回 本 书 第 3 章 ， 仔 细 地 推导 20 世纪 80 年 代 起 就 统治 着 神经 网 络 的 伟大 算法 。 

根据 学 习 输 出 种 类 的 不 同 , 我 们 主要 将 RNN 分 为 三 种 : 固定 长 度 到 可 变 长 度 ， 可 变 长 度 
到 固定 长 度 ， 可 变 长 度 到 可 变 长 度 的 学 习 。 接 下 来 我 们 就 简单 地 介绍 这 三 种 训练 模式 。 


° ”固定 长 度 到 可 变 长 度 学 习 
如 图 7-2 所 示 ， 我 们 将 固定 (特征) 大 小 的 数据 传 入 到 RNN 中 ， 然 后 将 其 输出 为 可 变 长 
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度 的 序列 数据 。 比 如 本 章 我 们 将 要 完成 的 自动 图 片 说 明 任务 加 就 采用 这 种 网 络 架 构 。 在 该 任 
务 中 , 我 们 首先 会 将 图 片 经 过 卷 积 网 络 进行 图 片 特征 提取 , 然后 将 图 片 特征 当 作 RNN 的 隐藏 
层 初始 状态 进行 学 习 ， 最 后 RNN 会 输出 一 段 该 图 片 的 文字 描述 。 





+ * + + 
Ө © e € 


图 7-2 固定 长 度 到 可 变 长 度 学 习 示 意图 
° ”可 变 长 度 到 固定 长 度 的 学 习 
如 图 7-3 所 示 ， 我 们 将 序列 数据 映射 到 一 个 固定 大 小 的 隐藏 层 ， 在 隐藏 层 中 进行 循环 处 
理 后 , 将 最 后 隐藏 层 的 状态 输出 到 输出 层 。 这 种 方式 使 得 我 们 的 序列 可 以 由 变 长 转化 为 固 长 ， 
例如 情感 分 类 任务 便 是 典型 地 将 一 段 文字 进行 分 类 识别 的 任务 。 





Q > o 


图 7-3 序列 到 固定 长 度 表 示 学 习 示意 图 


这 种 序列 到 固定 长 度 学 习 的 任务 训练 起 来 也 非常 的 方便 ， 只 需要 将 时 间 + 看 作 是 原始 前 
馈 网 络 的 1 层 ， 然 后 使 用 BP 算法 训练 这 种 按 层 共享 参数 的 “深层 神经 网 络 ” 即 可 。 


° ”可 变 长 度 到 可 变 长 度 的 学 习 
如 图 7-4 所 示 ， 序 列 的 每 一 个 时 间 片 段 都 对 应 着 一 个 输出 结果 ， 此 时 我 们 的 任务 就 变 成 
了 学 习 如 何 映射 输入 序列 到 输出 序列 。 
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这 类 任务 的 训练 方式 和 前 面 方法 类 似 ， 都 是 将 整个 序列 完全 地 输入 到 网 络 中 ， 然 后 从 序 
列 的 最 后 一 个 时 间 片 段 开 始 时 间 反 向 传播 训练 ， 只 是 在 训练 每 个 时 间 片 段 时 ， 残 差 除 了 来 自 
于 上 一 时 间 片 段 ， 还 来 自 于 当前 时 间 片 段 。 


Е: К 
ó, = уа) Gwe t+ 9 ду Ww) (7.3) 
k=l h'=1 


如 式 (7.3) Bim. GRRE 1 时 间 片 段 ， 隐 藏 层 h 的 残 差 。 而 该 残 差 来 自 于 当前 时 间 片 
段 1 的 各 输出 层 残 差 与 隐藏 层 到 输出 层 连接 权重 乘积 的 累加 , 再 加 上 t+1 时 间 片 段 的 各 隐藏 层 
残 差 与 隐藏 层 到 隐藏 层 连 接 权重 乘积 的 累加 。 需 要 说 明 的 是 在 := 7， 也 就 是 训练 序列 最 后 一 
时 间 片 段 时 ， 我 们 没有 xz= T+ 1 时 刻 的 残 差 ， 一 般 情况 下 我 们 会 将 其 设置 为 0， 因 此 在 1= 7 
时 ， 我 们 仅 需要 计算 当前 时 刻 的 输出 层 残 差 即 可 。 


图 7-4 可 变 长 度 到 可 变 长 度 学 习 示意 图 


7.2 循环 神经 网 络 设计 


接 下 来 ， 我 们 将 会 介绍 循环 网 络 的 一 些 变种 ， 典 型 的 结构 有 双向 循环 网 络 ， 编 码 -解码 网 
络 及 深度 循环 网 络 等 。 


7.2.1 双向 循环 网 络 结构 


到 目前 为 止 , 我 们 介绍 的 RNN 总 是 将 “过 去 ”的 信息 整合 起 来 , 然后 辅助 处 理 当前 信息 。 
但 在 某 些 任务 中 ， 我 们 可 能 也 需要 整合 “未 来 ”的 信息 来 处 理 当前 信息 。 如 在 语音 识别 中 ， 
由 于 协同 发 音 〈co-articulation ) 的 问题 ， 当 前 的 语音 翻译 可 能 需要 依赖 于 接 下 来 的 一 些 音素 
(phonemes， 最 小 的 语音 单位 ) 。 甚 至 由 于 一 些 语 言 的 语法 依赖 关系 ， 当 前 的 音素 也 可 能 依 
赖 于 接 下 来 的 一 些 单词 。 在 这 类 任务 中 ， 我 们 需要 结合 之 前 和 之 后 的 信息 去 消除 歧义 。 双 向 
循环 神经 网 络 (Bidirectional Recurrent Neural Networks, BRNNs) 中 是 一 种 结合 过 去 和 未 来 信 
息 处 理 当前 信息 的 网 络 结构 ， 目 前 该 网 络 结构 广泛 地 应 用 于 手写 识别 四 及 语音 识别 领域 只。 

顾名思义 ， 双 向 RNN 其 实 就 是 由 两 个 RNN 同时 组 成 ， 其 中 一 个 RNN 前 向 处 理 序列 数 
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据 从 序列 的 起 始 片段 处 理 ; 另 一 个 RNN 反 向 处 理 序列 数据 ， 从 序列 的 末尾 片段 开始 ， 然 后 倒 
序 处 理 。 如 图 7-5 WR, hO RRITET RNN 中 上 时 刻 的 隐藏 单元 ，g% 表示 逆序 处 理 
的 子 RNN 中 1 时 刻 的 隐藏 单元 ,在 计算 1 时 刻 的 输出 单元 o 时 ,网 络 既 考虑 了 之 前 的 信息 hn ， 
又 考虑 了 之 后 的 信息 g”。 








7.2.2 ”编码 -解码 网 络 结构 


在 上 一 小 节 的 可 变 长 度 到 可 变 长 度 学 习 中 ， 网 络 的 输入 和 输出 长 度 总 是 相同 的 ， 但 就 某 
些 任 务 而 言 ， 这 就 显得 非常 不 合理 了 。 例 如 ， 在 进行 机 器 翻译 任务 时 ， 我 们 不 可 能 将 英文 序 
列 整齐 地 翻译 成 中 文 序列 ， 并 且 大 多 数 情况 下 ， 英 文 序列 的 长 度 和 中 文 序列 的 长 度 也 应 该 不 
司 。 假 设 你 临时 被 分 配 到 给 外 国友 人 做 翻译 小 哥 ， 如 何 才能 体现 出 你 是 一 个 英语 大 牛 呢 ?外 
友人 说 一 个 字 ， 你 翻译 一 个 字 ， 这 种 策略 肯定 不 对 〈 这 就 相当 于 等 长 的 输入 -输出 模型 ) 。 
最 好 的 方式 是 他 说 完 一 句 话 ， 然 后 你 在 脑 中 出 现 这 句 话 对 应 的 一 些 概念 ， 比 如 时 间 、 地 点 、 
人 物 、 事 情 、 心 情 等 ， 然 后 你 再 根据 这 些 概念 组 成 一 句 话 翻译 出 来 。 这 里 的 翻译 更 多 的 是 一 
个 再 创造 的 过 程 ， 你 获得 了 输入 所 要 传达 的 一 些 抽 象 概念 ， 然 后 根据 自己 的 “喜好 ”转述 成 
另 一 种 语言 ， 可 以 是 直 白 的 话 ， 可 以 是 一 首 诗 ， 当 然 也 可 以 是 一 串 Python 代码 。 

编码 -解码 (Encoder-Decoder) 9 或 序列 到 序列 (Sequence-to-Sequence) 9 结构 便 是 最 简 
单 的 一 种 映射 变 长 序列 CVariable-length Sequence) 到 变 长 序列 的 网 络 结构 。 需 要 说 明 的 是 ， 
我 们 经 常 将 RNN 的 输入 称 之 为 “上 下 文 (context) ”， 而 我 们 需要 做 的 是 生成 该 上 下 文 C 

















243 


ze 深度 学 习 实战 





的 某 种 表示 。 这 种 表示 你 可 以 理解 成 是 由 输入 转化 的 一 些 特定 概念 ， 它 可 以 是 一 个 固定 向 量 ， 
也 可 以 是 一 个 序列 向 量 。 

你 可 能 有 些 迷 糊 了 ， 但 静 下 心 来 就 会 发 现 这 种 结构 其 实 非常 的 简单 ， 如 图 7-6 所 示 ， 编 
码 -解码 主要 分 为 以 下 两 个 部 分 。 


1. 我 们 将 输入 序列 输入 到 一 个 称 为 编码 器 (Encoder) 或 读者 (Reader) 的 RNN 中 ， 编 
码 器 将 序列 映射 到 一 个 向 量 C 中， 通常 此 向 量 为 RNN 隐藏 层 的 最 后 状态 。 

2. 我 们 将 向 量 C 作为 输入 数据 ， 输 入 到 一 个 称 为 解码 器 (Decoder) 或 者 写 者 (Writer) 
的 RNN 中 ， 从 而 生成 一 条 输出 序列 。 





图 7-6 编码 -解码 RNN 结构 示意 图 


7.2.3 ”深度 循环 网 络 结构 


RNN 一 般 可 以 分 解 成 三 个 部 分 : 一 是 输入 层 到 隐藏 层 ， 二 是 前 一 隐藏 层 到 下 一 隐藏 层 ; 

三 是 隐藏 层 到 输出 层 。 这 三 个 部 分 ， 我 们 可 以 用 三 组 权重 矩阵 来 表示 。 虽 然 从 训练 角度 出 发 ， 
将 隐藏 层 单元 按照 时 间 展开 可 以 看 作 是 一 个 非常 深 的 权重 共享 网 络 ， 但 从 模型 能 力 的 角度 ， 
其 依然 只 能 算 浅 层 的 网 络 。 这 就 好 像 没 有 公主 的 命 不 是 深层 结构 ) ， 却 得 了 公主 的 病 〔 训 
练 困难 ， 梯 度 消失 、 爆 炸 等 问题 〉。 
在 本 书 之 前 的 章节 中 , 我 们 已 经 强调 多 次 深度 结构 带 来 的 强大 能 力 , ЖИЕ RNN 中 加 入 深 
的 结构 5 会 不 会 更 好 呢 ? 答案 是 肯定 的 , 但 如 何 添加 就 是 一 个 问题 , 本 身 RNN 已 经 很 难 训 
了 ， 再 加 上 深层 的 结构 ， 那 训练 难度 也 就 成 倍 地 增长 了 。 这 里 我 们 主要 介绍 三 种 常用 的 深 
RNN 结构 作为 参考 。 

如 图 7-7 Ca) 所 示 ， 我 们 将 RNN 中 隐藏 层 扩 展 为 多 层 RNN 的 结构 9，h 和 z 分 别 表示 
不 同 的 RNN 隐藏 层 ，h 层 为 低层 循环 网 络 ，z 层 为 高 层 循环 网 络 ， 其 各 自 隐藏 层 的 状态 在 各 
自 的 层 中 循环 。 
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如 图 7-7 (b) 所 示 ， 我 们 将 RNN АВИ У ВТ. 首先 ， 输 

入 层 到 循环 隐藏 层 会 经 过 多 层 前 馈 网 络 ， 然 后 ， 循 环 隐藏 层 也 是 一 个 多 层 感 知 机 ， 只 有 在 循 

环 隐 藏 层 的 输出 才 可 以 连接 回 循环 隐藏 层 的 和 输入。 这 就 如 同 每 一 时 间 片 段 的 序列 都 经 过 多 级 

处 理 ， 然 后 再 连接 到 前 一 层 ， 最 后 ， 从 隐藏 层 到 输出 层 也 是 一 个 多 层 感 知 机 ， 隐 藏 层 的 输出 
经 过 多 级 的 前 馈 处 理 后 再 进行 结果 输出 。 

图 7-7 (b) 这 种 网 络 结构 虽然 大 大 增强 了 网 络 能 力 ， 但 也 变 得 非常 难 训练 。 如 图 7-7 Cc) 

所 示 ， 为 了 缓解 训练 困难 ， 我 们 也 可 以 将 循环 隐藏 层 设计 成 越 层 循环 中 的 方式 。 例 如 h 层 的 

- 些 神经 元 处 理 当前 时 间 片 段 后 ， 就 会 将 结果 存储 起 来 作为 下 一 时 间 片 段 使 用 ， 而 一 些 神 经 

ee 前 时 间 片 段 存储 起 来 。 而 下 一 时 间 片 段 ， 会 综合 单 循环 以 及 多 
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图 7-7 深层 循环 网 络 结构 示意 图 


73 门 控 循环 神经 网 络 


循环 网 络 有 一 个 非常 严重 的 缺陷 ， 那 就 是 很 难 学 习 长 期 依赖 (Long-Term 
Dependencies) "^", WK 7-8 所 示 ， 我 们 使 用 黑色 圆圈 表示 关键 信息 ， 随 着 RNN 的 执行 ， 当 
前 的 重要 信息 会 不 断 地 被 “稀释 ”。 当 执行 到 第 7 时 间 片 段 时 ， 最 开始 的 信息 几乎 就 不 起 作 
用 了 ， 这 就 是 RNN 的 长 期 依赖 困难 。 我 们 知道 文章 有 上 下 文联 系 ， 但 这 并 不 意味 着 每 段 话 ， 
每 个 句子 都 是 重要 的 ， 有 时 一 篇 文章 需要 抓 住 几 句 关键 句子 ， 几 个 关键 词 ， 便 可 以 理解 八成 
以 上 ， 反 之 则 很 难 理解 文本 。 但 这 些 关键 信息 可 能 出 现在 序列 数据 的 任何 位 置 ， 可 能 是 开头 ， 
可 能 是 中 段 ， 也 可 能 是 末尾 ， 如 果 关 键 信息 之 间 的 跨度 很 大 ， 就 会 出 现 长 期 依赖 问题 。 

在 理想 情况 下 ， 关 键 信息 的 位 置 不 应 该 有 区 别 ， 但 RNN 却 像 一 条 “快乐 的 小 金鱼 ”， 记 
忆 力 很 差 。 当 处 理 文本 分 类 问题 时 ， 如 果 关 键 信 息 出 现在 未 尾 ， 那 我 们 很 容易 就 可 以 学 习 到 
这 一 信息 。 但 如 果 这 一 信息 出 现在 开头 ， 学 习 起 来 就 非常 的 困难 。 该 问题 的 根本 原因 是 一 个 
老生 常 谈 的 问题 一 一 梯度 消失 或 爆炸 5， 由 于 长 时 间 《 展 开 为 深层 ) 的 跨度 ， 梯 度 不 断 地 消 
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耗 ， 到 达 最 前 面 时 ， 几 乎 趋向 为 零 ， 也 就 无 法 学 习 了 。 那 如 何 才能 缓解 “记忆 力 ” 差 呢 ? 


-009 
-099 
“Ө О О 


时 间 1 





4 5 6 7 
7-8 RNN 长 期 依赖 困难 示意 图 
如 果 “ 记 忆 力 ”是 一 间 小 房子 ， 那 想 要 记 住 重 要 信息 的 最 简单 方法 其 实 只 是 给 记忆 之 门 
上 把 “ 锁 ” 而 已 。“ 选 择 重要 的 ， 清 除 不 重要 的 ， 锁 住 重 要 的 ”这 就 是 本 小 节 的 重点 一 一 长 
短期 记忆 网 络 (Long Short-Term Memory, LSTM) 09 及 其 改进 的 基于 门 控 (Gated) 循环 网 络 
的 核心 思想 。 该 类 网 络 是 目前 实际 应 用 中 最 高 效 的 序列 模型 ， 并 且 已 广泛 应 用 于 语音 识别 57、 
手写 识别 四、 机 器 翻译 "0 、 图 像 说 明 "5 和 语法 解析 "9 。 接 下 来 我 们 就 详细 地 介绍 该 类 网 络 。 








7.3.1 LSTM 


LSTM 由 一 组 称 之 为 记忆 块 (memory blocks) 的 循环 子 网 构成 ， 每 个 记忆 块 包含 一 个 或 
多 个 自 连接 的 记忆 细胞 及 三 个 乘法 控制 单元 一 一 输入 门 、 输 出 门 和 遗忘 门 中 组 成 ， 提 供 着 类 
似 于 读 、 写 、 重 置 的 功能 。 如 图 7-9 所 示 ， 是 单个 细胞 的 LSTM 结构 示意 图 。 和 RNN 相似 ， 
其 隐藏 单元 也 是 横向 地 连接 回 隐藏 单元 , 只 是 将 RNN 的 隐藏 单元 蔡 换 成 了 具有 门 控 功 能 的 记 
忆 细 胞 。 
输入 门 、 输 出 门 、 遗 忘 门 可 以 看 作 是 三 个 sigmoid 神经 元 ， 其 输出 为 “0” 或 “1”， 表 示 
某 项 功能 的 “关闭 ”或 “开启 ”。 和 RNN 类 似 ， 其 输入 为 数据 的 当前 时 间 片 段 以 及 前 一 时 间 
片段 隐藏 层 的 输出 。 当 然 ， 我 们 也 可 以 加 入 如 图 7-9 中 的 虚线 所 示 ， 称 之 为 窥视 孔 或 猫眼 
Cpeephole) PC 连接 ， 其 表示 门 控 单 元 不 仅 需要 考虑 当前 的 输入 以 及 之 前 的 输出 , 还 需 考 虑 自 
身 存储 的 信息 。 
。 输入 门 控制 着 当前 信息 的 输入 : 当 信 息 经 过 输入 单元 激活 后 会 和 输入 门 进行 相 乘 ， 
以 确定 是 否 写 入 当前 信息 ; 
。 遗忘 门 控制 着 是 否 重 置 之 前 的 记忆 信息 : 其 与 细胞 之 前 的 记忆 信息 进行 乘法 运算 ， 
以 确定 是 否 保留 之 前 的 信息 ; 
° 输出 门 控制 着 当前 记忆 信息 的 输出 : 其 与 当前 细胞 记忆 信息 进行 相 乘 以 确定 是 否 输 
出 信息 。 
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。 ”细胞 单元 总 是 将 当前 的 输入 信息 与 之 前 的 记忆 信息 进行 累加 。 





7-9 LSTM 结构 示意 图 


我 们 将 上 述 的 文字 稍微 整理 一 下 ， 如 下 所 示 ， 我 们 将 带 有 peephole 连接 的 LSTM 网 络 的 
执行 过 程 ， 以 公式 的 形式 再 详细 描述 一 遍 ， 希 望 帮 你 理 清 思路 。 由 于 该 结构 字母 公式 较 多 ， 
请 在 清醒 时 学 习 。 

带 peephole 连接 的 LSTM 的 执行 过 程 。 
字符 说 明 : Доў pss aoOuGate 分 别 表示 t 时 刻 输 入 门 ， 遗忘 门 ,输出 门 的 累计 值 ; fAx)，g(x)，h(x) 


为 激活 函数 ; s 表示 细胞 的 记忆 信息 ; c 表示 LSTM 中 的 记忆 细胞 数量 ; 7 表示 输入 层 数 量 , Н лра а 
数量 。 


1. 计 算 输入 门 : 





1 H ë 
t cms: t А t4 t4 
UinGate = У; WinGate Xi + > WrincaeOn + > WainGateSc 
ial та cl 


Баа =f (аьвме) 


2. 计 算 输入 单元 : 


1 H 
t F 1-1 
Ва = ^( шыл + YD Wasa b, ) 
i=l h=1 


3. 计 算 遗 忘 门 : 








247 


= 深度 学 习 实战 





f. 
аф = Ў №, E Wise De ¿S 
FGate бае, i hFGate WopGateS. ë 
i=l 


Бесы =f (aFoate) 


4. 更 新 细胞 记忆 : 
s = = DigaeSe š + bro bsa 
5. 计 算 输出 门 : 


aouaate = Wit + > Wrowcateh + У Моаб: 


cz 


boucue = J (douane ) 
6. 计 算 细胞 输出 : 
b; = bouoaeh(s:) 








LSTM 的 反 向 传播 过 程 也 和 BP 算法 相同 ， 其 实 就 是 一 个 链 式 求 导 过 程 ， 如 下 所 示 。 但 由 
于 LSTM 的 结构 比较 复杂 ， 因 此 反 向 传播 时 所 要 计算 的 梯度 较 多 ， 需 要 读者 仔细 且 耐 心 。 


LSTM 的 反 向 传播 过 程 。 

字符 说 明 :， tnGate Crue ， 40wGate 分 别 表示 + 时 刻 输 入 门 ， 遗 忘 门 ， 输 出 门 的 累计 值 ; Ax)，g(x)，h(x) 
为 激活 函数 ; s 表示 细胞 的 记忆 信息 ; c 表示 LSTM 中 的 记忆 细胞 数量 ; 7 表示 输入 层 数 量 , H RREA 
Ake El, El, болса, Әсас’ cate? On 分 别 表示 zt 时刻; 细胞 输出 梯度 ， 细 胞 状态 梯度 ， 输 
出 门 梯度 ， 输 入 门 梯度 ， 遗 忘 门 梯度 ， 输 入 单元 梯度 。 

LSTM 各 单元 梯度 分 别 为 : 

细胞 输出 梯度 : 


K H i 
= t + 
£= Dwad + > w. ó, 
kal hal 


输出 门 梯度 : 





c 
боса = S аы): h(s¿)e; 
P=] 


细胞 状态 梯度 : 
£ yet н «Ol +1 +1 141 
& э = Болса (s; є. + DFGateEs + WinGate tte sa WpGate боне E WouGate OOuGate 


输入 单元 梯度 : 


jo v nut t 
б, = Pincate& (ainut Es 
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遗忘 门 梯度 : 


PS tot 
бш = (аса) Yee 


输入 门 梯度 : 


с 
сы =f liste yg (аы JE; 
c 








7.3.2“ 门 控 循 环 单 元 


LSTM 是 一 个 非常 好 的 模型 ， 但 其 会 不 会 有 些 过 于 复杂 了 呢 ? 即使 我 们 不 进行 peephole 
连接 ， 其 参数 也 相当 于 传统 RNN 的 4 倍 ， 前 馈 网 络 的 8 倍 。 如 此 多 的 参数 ， 虽 然 使 得 模型 能 
力 大 大 加 强 ， 但 同时 也 使 得 该 结构 过 于 宛 余 。 

LSTM 的 核心 思想 在 于 “ 门 控 ”的 概念 ， 如 果 想 要 记 住 关 键 的 信息 ， 那 我 们 必须 学 会 忽 
略 甚至 遗忘 一 些 不 重要 的 信息 ， 但 也 许 我 们 不 需要 既 控 制 信息 的 输入 又 控制 信息 的 输出 ， 如 
果 当 前 信息 很 重要 ， 那 其 实 已 经 说 明 过 去 的 信息 可 以 忽略 了 ， 而 这 就 是 门 控 循环 单元 (Gated 
Recurrent Units, GRUs) [3 的 基本 思想 。 

GRUs 使 用 更 新 门 (update gate) 及 重 置 门 (reset gate) 进行 信息 的 更 新 与 重 署 。 如 式 (7.4) 
All (7.5) 所 示 ， 其 更 新 门 以 及 重 置 门 和 LSTM 的 门 结构 类 似 ， 它 们 的 输入 都 是 当前 时 间 片 段 
的 输入 信息 以 及 之 前 隐藏 层 的 输出 信息 乘 以 权重 后 进行 累加 ， 然 后 再 放 入 Sigmoid 函数 中 激 
活 。 








了 H 

и,= f( wxi +> wh) (7.4) 
i=l h-l 

r л» Wy xn (7.5) 


GRUs 隐藏 层 的 输入 和 LSTM 有 些 区 别 ， 如 式 〈7.6) 所 示 ， 前 一 时 间 片 段 的 隐藏 层 输 出 
需要 先 与 重 置 门 相 乘 检验 是 否 重 署 之后， 才 乘 以 相应 的 权重 进行 累加 求 和 计算 。 


I H 
а = У »ух + у), Б!) (7.6) 
i=l h-l 
GRUs 隐藏 层 的 输出 就 比较 简单 ， 经 过 更 新 门 的 选择 后 输出 即 可 。 如 式 〈7.7) 所 示 ， 更 


新 门 输出 “0” 或 “1”。“0” 表 示 当 前 信息 不 输出 ,前 一 隐藏 层 输出 替代 当前 信息 进行 输出 ; 
“1” 表 示 过 滤 之 前 信息 ， 使 用 当前 信息 进行 输出 。 


b = (1-и) usa, (7.7) 
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74 КММ 编程 练习 


本 小 节 我 们 将 使 用 RNN 完成 图 像 说 明 (Image Captioning) 任务 。 该 任务 需要 联合 CNN 
与 RNN 一 同学 习 ，CNN 用 于 提取 图 像 特 征 ，RNN 用 于 生成 图 像 特征 所 对 应 的 说 明文 字 。 如 
图 7-10 所 示 ， 在 训练 阶段 ， 首 先 我 们 将 图 片 放 入 卷 积 网 络 中 进行 特征 提取 ， 将 其 作为 隐藏 层 
ҺО 的 输入 ; 然后 将 图 片 对 应 的 文字 描述 一 个 单词 接 一 个 单词 的 输入 到 RNN 中 ,而 RNN 的 输 


出 则 是 当前 单词 的 下 一 个 预测 单词 。 


图 像 特征 提取 
2009 © ° 


图 7-10 图 片 说 明 任务 训练 阶段 示意 图 
如 图 7-11 所 示 ， 在 测试 阶段 ， 我 们 将 RNN 预测 的 当前 单词 ， 作 为 下 一 时 间 片 段 的 输入 


数据 输入 到 RNN 中 。 








图 像 特征 提取 
= Ө 





7-11 图 片 说 明 任务 测试 阶段 示意 图 
本 练习 将 使 用 Microsoft COCOP3 数 据 集 , 其 作为 标准 的 图 像 说 明 测 试 数据 , 包含 有 80000 
条 训练 数据 以 及 40000 条 验证 数据 。 读 者 可 以 访问 网 址 : http://cs231n.stanford.edu/coco_ 
captioning.zip 来 下 载 数据 集 ， 下 载 完毕 后 解压 到 datasets 文件 目录 即 可 。 该 数据 集 已 经 对 数据 
使 用 VGG-16 卷 积 网 络 进行 了 特征 提取 ， 分别 存放 在 train2014_vggl6_fe7.h5 和 
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Val2014_vgg16_fc7.h5。 如 果 想 要 缩短 运行 时 间 ， 其 也 将 特征 从 4096 降 到 了 512 维 ， 分 别 存 
放 在 train2014_vgg16 fc7 pca.h5 以 及 val2014_vgg16 fc7 pca.hS 中 。 原 始 图 像 大 约 有 20GB, 


可 以 使 用 train2014_urls.txt 和 val2014_urls.txt 访问 (需要 使 用 VPN) 


直接 处 理 字符 串 非常 不 高 效 ， 因 此 我 们 给 每 个 单词 分 配 了 字典 ID 方便 我 们 查阅 使 用 。 因 
此 ， 输 入 的 序列 数据 其 实 是 一 条 字典 ID 串 ， 该 文件 存放 在 coco2014_vocab.json。 需 要 使 用 





coco_utils.py 文件 中 的 decode captions 函数 将 ID 转换 为 词 向 量 。 


在 训练 RNN 前 ， 需 要 使 用 记号 <START> 和 <END> 标 记 句 子 的 开头 与 结束 。 对 于 一 些 不 
常用 的 词 我们 使 用 <UNK> 进 行 替换 。 为 了 使 句子 长 度 相 同 ， 对 于 短 句 子 ， 我 们 在 <END> 标 记 


后 ， 填 充 <NULL>， 在 训练 时 ， 不 计算 <NULL> 的 损失 值 与 梯度 。 


以 上 内 容 可 能 过 于 繁杂 ， 我 们 已 经 处 理 好 了 ， 你 知道 即 可 。 现 在 打开 “第 7 章 练 习 -循环 


神经 网 络 .ipnb” 文 件 ， 进 入 本 章 的 练习 。 





代码 库 导 入 模块 : 

#-*- coding: utf-8 -*- 

import time, os, json 

import numpy as np 

import matplotlib.pyplot as plt 

from classifiers.chapter7 import * 

from utils import * 

Yomatplotlib inline 

plt.rcParams[ 'figure.figsize' ] = ( 10.0, 8.0 ) 
plt.rcParams[ 'image.interpolation' ] = 'nearest" 
plt.rcParams[ 'image.cmap' ] = 'gray' 
%load_ext autoreload 

Yoautoreload 2 


def rel_error( x, y ): 


return np.max( np.abs( x — y ) / ( np.maximum( le-8, np.abs( x ) + np.abs( y ) ) ) ) 





确认 所 有 文件 都 存在 后 ， 接 下 来 我 们 导入 COCO 数据 。 








数据 导入 代码 块 : 





data = load_coco_data( pca_features = True ) 
for k, v in data.iteritems( ) : 
if type( v ) == np.ndarray: 
print k, type( v ), v.shape, v.dtype 
else: 


print k, type( v ), len( у) 








正确 导入 数据 后 结果 如 下 所 示 。 





251 





= 深度 学 习 实战 





正确 导入 数据 后 的 显示 结果 : 








idx to word <type 'list 1004 

train captions «type 'numpy.ndarray'7 (400135L, 17L) int32 
val captions «type 'numpy.ndarray'> (195954L, 17L) int32 
train image idxs «type 'numpy.ndarray'> (400135L.) int32 
val features «type 'numpy.ndarray'> (40504L, 512L) float32 
val image idxs «type 'numpy.ndarray'> (195954L,) int32 
train features «type 'numpy.ndarray'> (82783L, 512L) float32 
train urls «type 'numpy.ndarray'> (82783L,) |S63 

val urls «type 'numpy.ndarray'> (40504L.) |S63 

word to idx «type 'dict'> 1004 








74.1 RNN 单 步 传播 


° RNN 单 步 前 向 传播 


导入 库 文 件 及 数据 后 。 接 下 来 打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 
成 rnn_step_forward 函数 ， 实 现 RNN 的 单 步 前 向 传播 。 





rnn step forward 函数 代码 块 : 
def rnn_step_forward( x, prev_h, Wx, Wh, b ): 


т" 


RNN 单 步 前 向 传播 ， 使 用 tanh 激活 单元 。 
Inputs: 

-х: 当前 时 间 片 段 数据 输入 ( N. D )。 
-prev_h: 前 一 时 间 片 段 隐藏 层 状态 (N.H). 
- Wx: 输入 层 到 隐藏 层 连接 权重 (D, H )。 

= Wh: 隐 藏 层 到 隐藏 层 连接 权重 ( H, Н )。 

-b: 隐藏 层 偏 置 项 ( H, )。 

Retums 元 组 : 

-next h: 下 一 时 间 片 段 隐 藏 层 状态 ( N. H )。 
-cache: 用 于 反 向 传播 的 各 项 缓存 。 

next_h, cache = None, None 

H HHHH HEHHE EHE HE H HE HE H H H H H H H HH HH H HH H Hat 


# 任务 : 实现 RNN 单 步 前 向 传播 。 # 
# 将 输出 值 存储 在 next h 中 ， # 
# 将 反 向 传播 时 所 需 的 各 项 缓存 存放 在 cache 中 。 # 


JHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBE 
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#НННННННННННННЯНННННЯННННННННННННННННННННННННННННННННННННННННЕ 
# 结束 编码 # 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 


return next h, cache 





完成 上 述 编码 后 运行 下 列 代码 进行 检验 。 


RNN 单 步 前 向 传播 代码 检验 : 
N, D, H= 3, 10,4 
х = np.linspace( -0.4, 0.7, num = N * D ).reshape( N, D ) 








prev h- np.linspace( -0.2, 0.5, num = N * H ).reshape( N, Н ) 

Wx = np.linspace( -0.1, 0.9, num = D * H ).reshape( D, H ) 

Wh = np.linspace( -0.3, 0.7, num = H * H ).reshape( H, H ) 

b = np.linspace( -0.2, 0.4, num = Н ) 

next h, —rnn step forward( x, prev h, Wx, Wh, b ) 

expected next h = np.asarray( [ 
[-0.58172089, -0.50182032, -0.41232771, -0.31410098 ], 
[0.66854692, 0.79562378, 0.87755553, 0.92795967 ], 
[0.97934501, 0.99144213, 0.99646691, 0.99854353 ] ] ) 

print 'next_h 误差 : ', rel error( expected next h, next_h ) 


正确 编码 后 可 能 的 结果 : 
next_h 误差 : 6.29242142647e-09 








° RNN 单 步 反 向 传播 


完成 RNN 的 单 步 前 向 传播 后 ， 接 下 来 我 们 实现 RNN 的 单 步 反 向 传播 编码 。 打 开 
“DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 mmn_step_backward 函数 ， 实 现 RNN 
的 单 步 反 向 传播 。 


mn_step_backward 函数 代码 块 : 
defrnn step backward( dnext h, cache ) : 








RNN 单 步 反 向 传播 。 

Inputs: 

- dnext h: 后 一 时 间 片 段 的 梯度 。 

- cache: 前 向 传播 时 的 缓存 。 

Returns 元 组 : 

- dx: 数据 梯度 ( N, D )。 

- dprev_h: 前 一 时 间 片 段 梯度 ( N. H) 

- dWx: 输入 层 到 隐藏 层 权重 梯度 ( D. H )。 
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-dWh: ”隐藏 层 到 隐藏 层 权 
- db: 偏 置 项 梯度 ( Н, )。 





梯度 ( H, H ). 


dx, dprev_h, dWx, dWh, db = None, None, None, None, None 

HBHHBHE HHHHHBHHHHHHHHHHHRHE HHH HHHH HH HHH HHHH HHHH HHHH HH HHRHH 
# 任务 : 实现 RNN 单 步 反 向 传播 。 # 
# 提示 : tanh( x ) 梯 度 : 1 - tanh( x ) * tanh( x )。 # 
HEHEHEH HEHEH HEHEHEHEH HEHEH HEHEHEHEHE HHEH HEHEH HEHEHEH HHE HHEH HEH H HHEH HH HH H HHEH HHHH H HH HHHH HHHH 








THHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHBHHHHHHHHHHHHHHBHHHHHHHBHHHHHBHHE 


# 结束 编码 # 
HH AEE HE HHHH HHH HH SSS Sa a H 
return dx, dprev_h, dWx, dWh, db 





完成 上 述 编码 后 运行 下 列 代码 进行 检验 ， 相 对 误差 应 该 小 于 le-8。 


RNN 单 步 反 向 传播 梯度 检验 : 
N,D,H-4,5,6 

x =np.random.randn( N, D ) 

h = np.random.randn( N. H ) 
Wx = np.random.randn( D. H ) 
Wh = np.random.randn( H, H ) 
b = np.random.randn( H ) 





out, cache = mn_step_forward( x, h, Wx, Wh, b ) 

dnext_h = np.random.randn( *out.shape ) 

fx = lambda x: rnn step forward( x, h, Wx, Wh, b )[ 0 ] 

fh = lambda prev_h: rnn step forward( x, h, Wx, Wh, b )[ 0 ] 
fWx = lambda Wx: rmn step forward( x, h, Wx, Wh, b )[ 0 ] 

fWh = lambda Wh: rnn step forward( x, h, Wx, Wh, b )[ 0 ] 

fb = lambda b: rnn_step_forward( x, h, Wx, Wh, b )[ 0 ] 

dx_num = eval_numerical_gradient_array( fx, x, dnext_h ) 
dprev_h_num = eval_numerical_gradient_array( fh, h, dnext_h ) 
dWx num = eval numerical gradient array( х, Wx, dnext_h ) 
dWh num = eval numerical gradient array( fWh, Wh, dnext_h ) 
db num = eval numerical gradient array( fb, b, dnext h ) 

dx, dprev h, dWx, dWh, db = rnn step backward( dnext h, cache ) 
print 'dx 误差 : ' rel error( dx num, dx ) 
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print 'dprev_h 误差 : ', rel_error( dprev h num, dprev_h ) 
print 'dWx 误差 : ' rel error( dWx num, dWx ) 


print'dWh 误差 : ', rel error( dWh пит, dWh ) 
print'db 1x25: ', rel error( db num, db ) 








梯度 检验 结果 : 

dx 误差 : 1.32283815334e-10 
dprev_h 误差 : 9.06216381084e-11 
dWx 误差 : 4.70313722295e-10 
dWh 误差 : 6.94651543674e-10 
db 误差 : 2.47527388408e-10 











74.2 RNN 时 序 传播 


° RNN 前 向 传播 


完成 RNN 的 单 步 传播 后 ， 接 下 来 需要 将 单 步 RNN 组 合 起 来 , 编码 实现 完整 的 时 序 RNN 
前 向 传播 过 程 。 
打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 mn_forward 函数 编码 。 





mn_forward 函数 代码 块 : 
defrnn forward( x, h0, Wx, Wh, b): 


RNN 前 向 传播 。 

Inputs: 

-x: 完整 的 时 序数 据 ( N, T, D )。 

-h0: 隐藏 层 初始 化 状态 ( N. H )。 

- Wx: 输入 层 到 隐藏 层 权 重 ( D, Н )。 
- Wh: ”隐藏 层 到 隐藏 层 权重 ( H, Н). 
-b: 偏 置 项 ( H, )。 

Returns 元 组 : 

-h: 所 有 时 间 步 隐藏 层 状态 (N,T,H )。 
-cache: 反 向 传播 所 需 的 缓存 。 

h, cache = None, None 


HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH 


# 任务 : 实现 RNN 前 向 传播 。 # 
# 提示 : 使 用 前 面 实现 的 mn_step_forward 函数 。 # 


JHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHBHE 
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‘EAE HEAR AEE EEE 
# 结束 编码 # 
EBHHHHBHHBHHHHHUHHBHHHHHHHHHBHHHHHHHHUHHHHEHHHBUHHRHHHHHHHRUE 














return h, cache 


完成 上 述 编码 后 ， 使 用 下 列 代码 进行 验证 ， 相 对 误差 应 该 要 小 于 le-7。 





RNN 前 向 传播 代码 检验 : 





N,T,D,H=2,3,4,5 

x = np.linspace( -0.1, 0.3, num = N * T * D ).reshape( N, T, D ) 

h0 = np.linspace( -0.3, 0.1, num = N * H ).reshape( N, H ) 

Wx = np.linspace( -0.2, 0.4, num = D * H ).reshape( D, H ) 

Wh = np.linspace( -0.4, 0.1, num = H * H ).reshape( H, H ) 

b = np.linspace( -0.7, 0.1, num =H ) 

h, _=rnn_forward( x, h0, Wx, Wh, b ) 

expected_h = np.asarray( [ 

-0.42070749, -0.27279261, -0.11074945, 0.05740409, 0.22236251 ], 
-0.39525808, -0.22554661, -0.0409454, 0.14649412, 0.32397316 ], 
-0.42305111, -0.24223728, -0.04287027, 0.15997045, 0.35014525 ], 


-0.55857474, -0.39065825, -0.19198182, 0.02378408, 0.23735671 ], 
-0.27150199, -0.07088804, 0.13562939, 0.33099728, 0.50158768 ]. 
-0.51014825, -0.30524429, -0.06755202, 0.17806392, 0.40333043 ]]]) 
print'h 误差 : ', rel error( expected h,h ) 














h 误差 : 7.72846618019e-08 





正确 编码 后 的 检验 结果 : | 





° RNN 时 序 反 向 传播 


接 下 来 需要 将 单 步 RNN 反 向 传播 组 合 起 来 ， 实 现 完整 的 RNN 反 向 传播 过 程 。 打 开 
“DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 mn backward 函数 编码 。 





rnn backward 函数 代码 块 : 


def rnn_backward( dh, cache ) : 
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RNN 反 向 传播 。 

Inputs: 

- dh: 隐藏 层 所 有 时 间 步 梯度 ( N. T, Н )。 

Returns 元 组 : 

- dx: 输入 数据 时 序 梯度 ( N, T, D )。 

- dh0: 初始 隐藏 层 梯 度 ( N. Н )。 

-dWx: 输入 层 到 隐藏 层 权重 梯度 ( Р, H )。 

-dWh: 隐藏 层 到 隐藏 层 权 重 梯度 ( H, H )。 

- db: 偏 置 项 梯度 ( H, )。 

dx, dh0, dWx, dWh, db = None, None, None, None, None 
THHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHBHBHHBHHHBHHBHHHHHBHHHHHBHHHHBHHHE 
# 任务 : 实现 RNN 反 向 传播 。 # 
# 提示 : 使 用 mn step backward 函数 。 # 
HHH H HH HHH HH HH HHH HHHH HHH HH HHHH HH HHH HR HHH HHHH HHH HH HHHH HHHH H HHHH 





THHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHBHHHHHBHHHHHBHHHHHHHHHHHHHBRRE 
# 结束 编码 # 
FRE HEHEHE HHH AEE HHH HH HHHH HH HHHH HHH HHHH HR HHHH HHH HH NE 
return dx, dh0, dWx, dWh, db 


完成 上 述 编码 后 ， 使 用 下 列 代码 进行 梯度 检验 。 
RNN 反 向 传播 梯度 检验 代码 块 : 


循环 神经 网 络 











N, D, T, H =2, 3, 10,5 

x = np.random.randn( N, T, D ) 

h0 = np.random.randn( N, H ) 

Wx = np.random.randn( D, H ) 

Wh = np.random.randn( Н, Н ) 

b = np.random.randn( H ) 

out, cache =rnn_forward( x, h0, Wx, Wh, b ) 

dout = np.random.randn( *out.shape ) 

dx, dh0, dWx, dWh, db = rnn_ backward( dout, cache ) 








257 





深度 学 习 实战 
= 


fx = lambda x: mn forward( x, h0, Wx, Wh, b )[ 0 ] 

fh0 = lambda ҺО: rnn_forward( x, h0, Wx, Wh, b )[ 0] 

fWx = lambda Wx: гпп forward( x, h0, Wx, Wh, b )[ 0 ] 

fWh = lambda Wh: rnn_forward( x, h0, Wx, Wh, b )[ 0 ] 

fb = lambda b: rnn_forward( x, h0, Wx, Wh, b )[ 0 ] 

dx num = eval_numerical_gradient_array( fx, x, dout ) 
dh0_num = eval numerical gradient array( ћ0, h0, дош ) 
dWx num = eval numerical gradient array( fWx, Wx, dout ) 
dWh num - eval numerical gradient array( fWh, Wh, dout ) 
db num = eval numerical gradient array( fb, b, dout ) 

print 'dx 误差 : ', rel. error( dx. num, dx ) 

print 'dh0 12226: ', rel error( аһ0 num, dh0 ) 

print 'dWx 误差 : ', rel error( dWx. num, dWx ) 

print 'dWh 误差 : ', rel error( dWh num, dWh ) 

print 'db 误差 : ', rel error( db num, db ) 





RNN 反 向 传播 梯度 检验 结果 : 
dx 误差 : 1.00522800734e-09 
dh0 误差 : 9.65224885793e-10 
dWx 误差 : 2.18316121716e-10 
dWh 误差 : 5.04697475273e-10 
db 误差 : 5.5815650463e-11 








7.4.3 ЗЛА 


° GENES ERR 


现在 ， 需 要 将 时 序数 据 〈 索 引 串 ) 转换 为 词 向 量 。 
打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 实 现 word embedding forward 
函数 ， 将 单词 索引 转化 为 词 向 量 。 


word_embedding forward 函数 代码 块 : 








def word embedding forward( x, W ) : 


"m 


词 嵌入 前 向 传播 ， 将 数据 矩阵 中 的 N 条 长 度 为 T 的 词 索 引 转 化 为 词 向 量 。 
如 : W[x[i,j ] ] 表 示 第 i 条 ， 第 j 时 间 步 单词 索引 所 对 应 的 词 向 量 。 
Jnputs: 
-x: 整数 型 数组 (N,T)，N 表示 数据 条 数 ，T 表示 单条 数据 长 度 ， 

数组 的 每 一 元 素 存放 着 单词 索引 ， 取 值 范围 [ 0, V )。 
- W: ЗАПА ЕЕ BEC V, D ) 存 放 各 单词 对 应 的 向 量 。 
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Returns 元 组 : 

-out: 输 出 词 向 量 ( N, T, D )。 

-cache: 反 向 传播 时 所 需 的 缓存 。 

out, cache = None, None 

THHHHHHHHHHHHHHHHHHHHHBHE EEE EE AEE HE HE AEE He HHHH HHHHHH 
# 任务 : SHLAA wil fede # 
HEHEHEH HEHEHEH HEHEHEH HEHEHEHEH HHHH HHH: HE EE HHH HHRHH HHHH HHHHHH 

















HH HEHEHE HE HHHH HHHH HHH HH HHH HH HHHH HHH HHRHH HHRH HHRHH HHRHH HHHHHHH 
# 结束 编码 # 
AHHH HHH HHH HH HHHH HHH HH H HHHH HHHH HRH HH HHHH HHH HHH HHHH HHHH HHH HH H 
return out, cache 
运行 下 列 代码 ， 实 现 的 误差 范围 应 该 在 le-8 内 。 
词 嵌入 前 向 传播 代码 检验 : 








N, T, V, D = 2, 4, 5, 3 

х = пр.аѕаггау([ [ 0, 3, 1,2], [2,1,0,3]]) 

W = np.linspace( 0, 1, num = V * D ).reshape( V, D ) 
out, — word embedding forward( x, W ) 
expected out — np.asarray( [ 

LLO., 0.07142857, 0.14285714 ], 
[0.64285714, 0.71428571, 0.78571429 ], 
[0.21428571, 0.28571429, 0.35714286 ]. 
[0.42857143, 0.5, 0.57142857 ]]. 

[[0.42857143, 0.5, 0.57142857 ], 
[0.21428571, 0.28571429, 0.35714286 ]. 
[0., 0.07142857, 0.14285714 ], 
[0.64285714, 0.71428571, 0.78571429 ]] ] ) 

print 'out 3&2: ', rel. error( expected out, out ) 








词 嵌 入 前 向 传播 检验 结果 : 








out 误差 : 1.00000000947e-08 





° 词 谋 入 反 向 传播 


接 下 来 ， 实 现 word embedding backward 函数 ， 完 成 词 柑 入 的 反 向 传播 。 
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word_embedding backward 函数 代码 块 : 
def word embedding backward( dout, cache ) : 





词 嵌 入 反 向 传播 。 

Inputs: 

-dout: 上 层 梯 度 ( N, T, D )。 
-cache: 前 向 传播 缓存 。 
Returns: 


-dW: 词 嵌 入 矩阵 梯度 ( V, D )。 








dW=None 

EEE HE HHH HHHH HHHH HE HHHH HHH HH HHH HHRH HHRHH HHRHH HHRH HHHHHH 
# 任务 : 实现 词 嵌 入 反 向 传播 。 # 
# 提示 : 可 以 使 用 np.add.at 函数 。 # 


# 例如 np.add.at( a, [ 1,2 ], 1 ) 相 当 于 a[ 1 ], af 2] 分 别 加 1。 # 
MIBHHBHHHHHHBHHHHBHHHHHHHHHHHEHHHHHHHHHHE 


THHHHHHHHHHHHBHHHHHBHHHHHBHBHHHHHHHHHHHHHHBHHHHHHBHBHHHHHBHHHHHBINE 


# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHRE 
return dW 





运行 下 列 梯度 检验 代码 ， 误 差 应 该 小 于 le-11。 
词 嵌 入 反 向 传播 梯度 检验 : 





N, T, V;,D-50,3,5,6 


x = np.random.randint( V, size = ( N. T) ) 


W = np.random.randn( V, D ) 

out, cache = word embedding forward( x, W ) 

dout = np.random.randn( *out.shape ) 

dW = word embedding backward( dout, cache ) 

f= lambda W: word embedding forward( x, W )[ 0 ] 
dW num = eval numerical gradient array( f, W, dout ) 


print'dW 误差 : ', rel error( dW, dW num ) 











梯度 检验 结果 : 
dW 误差 : 3.28045581786e-12 
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744 RNN 输出 层 


RNN 隐藏 层 到 输出 层 的 传播 和 前 馈 网 络 类 似 ， 只 是 其 为 ON,TD) 的 三 维 数据 。 实 现 起 来 也 
比较 简单 ， 只 需要 将 输入 重 塑 为 NXT.D) 数 据 ， 然 后 就 可 以 进行 矩阵 点 乘 了 。 完 整 的 传播 过 
程 分 别 在 temporal_affine_forward 和 temporal_affine_backward 函数 中 实现 。 

打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 阅 读 相关 代码 。 








temporal_affine_forward 函数 代码 块 : 
def temporal_affine_forward( x, w, b ) : 
时 序 隐藏 层 仿 射 传播 : 将 隐藏 层 时 序数 据 (N, T, D ) 重 塑 为 (N * T, D), 
完成 前 向 传播 后 ， 再 重 塑 回 原型 输出 。 
Inputs: 
-x: 时 序数 据 ( N, T, D )。 
-w: BUÉ( D, M )。 
-b: 偏 置 ( M, )。 
Returns 元 组 : 
- ош: 输出 ( N, T, M )。 
-cache: 反 向 传播 缓存 。 





N, T, D = x.shape 

M = b.shape[ 0 ] 

out = x.reshape( N * T, D ).dot( w ).reshape( N, T, M) + b 
cache = x, w, b, out 


return out, cache 








temporal_affine_backward 函数 代码 块 : 
def temporal_affine_backward( dout cache ) : 





时 序 隐藏 层 仿 射 反 向 传播 。 
Input: 

- dout: 上 层 梯度 ( N, T. M ). 
-cache: 前 向 传播 缓存 。 
Returns 元 组 : 

- dx: 输入 梯度 ( N, T, D )。 
-dw: 权重 梯度 ( D, M )。 

- db: 偏 置 项 梯度 ( M, )。 


mn 





x, W, b, out = cache 
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N, T, D = x.shape 

M = b.shape[ 0 ] 

dx = dout.reshape( N * T, M ).dot( w.T ).reshape( N, T, D ) 
dw = dout.reshape( N * T, M ).T.dot( x.reshape( N * T, D) ).T 
db = dout.sum( axis = (0, 1) ) 


return dx, dw, db 





阅读 完 上 述 代码 ， 使 用 下 列 代码 进行 时 序 输 出 层 的 梯度 检验 。 
时 序 输出 层 的 梯度 检验 代码 块 : 
N, T, D, M=2, 3, 4, 5 
x = np.random.randn( N, T, D ) 
w = np.random.randn( D, M ) 
b = np.random.randn( M ) 








out, cache = temporal affine forward( x, w, b ) 

dout = np.random.randn( *out.shape ) 

fx = lambda x: temporal affine forward( x, w, b )[ 0 ] 
fw = lambda w: temporal affine forward( x, w. b )[ 0 ] 
fb = lambda b: temporal affine forward( x, w. b )[ 0 ] 
dx num = eval numerical gradient array( fx, x, дош ) 
dw num = eval numerical gradient array( fw, w, dout ) 
db num =eval numerical gradient array( fb, b, dout ) 
dx, dw, db = temporal affine backward( dout, cache ) 
print'dx 误差 : ', rel. error( dx. num, dx ) 

print 'dw 误差 : ', rel error( dw num, dw ) 


print'db 误差 : ', rel error( db num, db ) 








时 序 输出 梯度 检验 结果 : 





dx 误差 : 8.73419498779e-11 
dw 误差 : 5.80493454126е-11 
db 误差 : 2.03584798919e-11 








7.4.5 “时序 Softmax 损失 


使 用 RNN 进行 语言 建 模 时 , 每 一 时 间 步 都 将 会 预测 下 一 个 单词 对 应 单词 字典 中 的 单词 得 
分 索引 。 在 每 一 时 间 片 段 ， 我 们 都 将 使 用 Softmax 作为 损失 函数 ， 然 后 我 们 再 将 每 一 时 间 片 
段 的 损失 值 加 起 来 取 平均 值 , 但 句子 的 长 度 是 不 相同 的 , 为 了 使 输入 对 齐 , 我 们 填充 <NULL> 
补 全 短 句 子 。 这 些 填充 的 <NULL> 标 记 不 会 计算 在 损失 值 或 梯度 值 内 ， 因 此 我 们 还 需要 使 用 
mask 进行 过 滤 。 我 们 已 经 将 这 些 内 容 写 进 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 
中 的 temporal softmax loss 函数 ， 阅 读 即 可 。 
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temporal_softmax_loss 函数 代码 块 : 





def temporal_softmax_loss( x, y, mask, verbose = False ) : 
时 序 版 本 的 Softmax 损失 和 原版 本 类 似 ， 只 需 将 数据 ( N, T, V ) 重 塑 为 (N* T, V ) 即 可 。 
需要 注意 的 是 ， 对 于 NULL 标记 不 计算 到 损失 值 内 ， 因 此 ， 需 要 加 入 掩 码 进行 过 滤 。 
Inputs: 
-x: 输入 数据 得 分 ( N, T, V). 
-y: 目标 索引 (N,T)， 其 中 0<=y[i,t]<V。 
-mask: 过 滤 NULL 标记 的 掩 码 。 
Returns 元 组 : 
-loss: 损失 值 。 
- dx: x 梯度 。 
N, T, V = x.shape 
x_flat = x.reshape( N * T, V ) 
y_flat = y.reshape( N * T ) 
mask flat = mask.reshape( N * T ) 
probs = np.exp( x_flat - np.max( x_flat, axis = 1, keepdims = True ) ) 
probs /= np.sum( probs, axis = 1, keepdims = True ) 
loss = -np.sum( mask flat * np.log( probs[ np.arange( N * T ), y flat ] ) ) / N 
dx flat = probs.copy( ) 
dx_flat[ np.arange( N * T ), y_flat ] -= 1 
dx flat /= N 
dx flat *= mask flat[ :, None] 
if verbose: print 'dx flat: ', dx_flat.shape 
dx = dx_flat.reshape( N, T, V ) 


return loss, dx 





阅读 完 时 序 Softmax 的 编码 后 ， 使 用 下 列 代码 进行 梯度 检验 。 








时 序 Softmax 梯度 检验 代码 块 : 





N, T, V = 100, 1,10 
def check_loss( N. T, V. p): 
x = 0.001 * np.random.randn( N. T, V ) 


y = np.random.randint( V, size - ( N, T ) ) 

mask = np.random.rand( N, T ) <= p 

print temporal softmax loss( x, y, mask )[ 0] 
check loss( 100, 1,10, 1.0). # 损失 值 大 约 为 2.3。 
check loss( 100, 10, 10, 1.0 ) # 损失 值 大 约 为 23。 
check loss( 5000, 10, 10,0.1) # 损失 值 大约 为 2.3. 
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N, T, V=7, 8,9 
х = np.random.randn( N, T, V ) 
y = np.random.randint( V, size = ( N, T) ) 
mask = ( np.random.rand( N, T ) > 0.5) 
loss, dx — temporal softmax loss( x, y, mask, verbose — False ) 
dx num = eval numerical gradient( 
lambda x: temporal softmax loss( x, y, mask )[ 0 ], x, verbose = False ) 


print'dx 误差 : ', rel. error( dx, dx num ) 





正确 的 检验 结果 : 
2.30266073037 
23.0259083466 
2.32883265665 

dx 误差 : 8.8294311078e-08 














74.6 RNN 图 片 说 明 任务 


我 们 已 经 实现 了 所 需 的 各 项 零件 ， 接 下 来 就 用 RNN 完成 图 片 说 明 任 务 。 打 开 
“DLAction/classifiers/chapter7/rnn.py” 文 件 ， 阅 读 CaptioningRNN 类 。 需 要 实现 RNN 的 loss 
函数 及 测试 阶段 使 用 的 sample 函数 。 目 前 你 只 需 实现 RNN 即 可 ， 之 后 再 实现 LSTM 部 分 内 





CaptioningRNN 损失 函数 : 


defloss( self features, captions ) : 


计算 RNN 或 LSTM 的 损失 值 。 

Inputs: 

- features: 输入 图 片 特征 (N, D )。 

- captions: 图 像 文字 说 明 ( N,T )。 

Returns 元 组 : 

- loss: 损失 值 。 

- grads: 梯 度 。 

# 将 文字 切 分 为 两 段 : captions іп 除去 最 后 一 词 用 于 RNN 输入 。 
# captions_out 除去 第 一 个 单词 ， 用 于 RNN 输出 配对 。 


captions in = captions[ : , : -1 ] 
captions ош = captions[ : , 1 :] 
# 掩 码 。 


mask = ( captions out != self. null ) 


# 图 像 仿 射 转换 矩阵 。 
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W proj, b proj = self.params[ 'W proj' ], self.params[ 'Ь ргој' ] 

# 词 嵌 入 矩阵 。 

W_embed = self.params[ 'W_embed' ] 

# RNN 参数 。 

Wx, Wh, b = self.params[ 'Wx' ], selfparams["Wh' ], self.params[ 'b' ] 
# 隐藏 层 输出 转化 矩阵 。 


W_vocab, b vocab = self.params[ 'W_vocab' ], self.params[ 'b_vocab' ] 


loss, grads = 0.0, { } 
JHHHHBHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHBHHHHHHHHHHHBHRHIE 


# 任务 : 实现 CaptioningRNN 传播 。 # 

# (1) 使 用 仿 射 变换 ( features, W_proj, b_proj ), # 
# 将 图 片 特征 输入 进 隐藏 层 初始 状态 hO( М, H )。 # 
# (2) (HFA Ta HRA Ж captions_in 中 的 单词 索引 转换 为 词 向 量 (N,T, W )。 # 
# (3) 使 用 RNN BR LSTM 处 理 词 向 量 (N,T, H)。 # 
# (4) 使 用 时 序 仿 射 传播 temporal_affine_forward 计算 各 单词 得 分 ( N, T,V )。 # 
# (5) 使 用 temporal_softmax_loss 计算 损失 值 。 # 


THHBHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHHHHHHHBHHHHHEE 


THHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHHHHHBHHBHHHBHHHHHHHHHHHHHHHHHRHHHHE 
# 结束 编码 # 
TIHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHHBHHHHHHHHBHHHBHHBHBHHHHHBHHHHHBHHBHHBHE 


return loss, grads 








测试 阶段 采样 输出 代码 块 : 








def sample( self features, max_length = 30 ) : 
测试 阶段 的 前 向 传播 过 程 ， 采 样 一 批 图 片 说 明 作为 输入 。 
Inputs: 
- features: 图 片 特征 ( N. D )。 
- max_length: 生 成 说 明文 字 的 最 大 长 度 。 
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Returns: 


- captions: 说 明文 字 的 字典 索引 串 (N, max_length )。 


"m 


N = features.shape[ 0 ] 

captions — self. null * np.ones( ( N, max length ), dtype — np.int32 ) 

W proj, b proj = self.params[ 'W proj' ], self.params[ 'b proj'] 

W embed = self.params[ 'W_embed' ] 

Wx, Wh, b = self.params[ 'Wx' ], self.params[ 'Wh' ], self.params[ 'b' ] 

W vocab, b vocab = self.params[ 'W_vocab' ], self.params[ 'b vocab' ] 
JHHHHBHHHHHHHHBHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHHRHBRHE 


# 任务 : 测试 阶段 前 向 传播 。 # 

# 提示 : (D 第 一 个 单词 应 该 是 <START> 标 记 ，captions[ : ,0 ] = self. start。 # 
# (2) 当前 的 单词 输入 为 前 一 时 间 段 RNN 的 输出 ， # 
# (3) 前 向 传播 过 程 为 预测 当前 单词 的 下 一 个 单词 ， # 
# 需要 计算 所 有 单词 得 分 ， 然 后 选取 最 大 得 分 作为 预测 单词 。 # 
# (4) 无 法 使 用 mn. forward 或 stm_forward 函数 ， # 
# 需要 循环 调用 mn step forward BÈ Istm step forward 函数 。 # 


THHBHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHHHHHHHBHHHHINE 


THHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHHHHHBHHHHHHBHHBHBHHHHHBHHHHHBHHRHHBHE 
# 结束 编码 # 
THHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHBHHHBHHHHHHBHHBHHHHHHHHHHBHHHHHBHHBHE 


return captions 





完成 上 述 编码 后 运行 下 列 代码 ， 损 失误 差 应 该 小 于 le-10。 








CaptioningRNN 损失 误差 检验 模块 : 





N, D, W, H = 10, 20, 30, 40 
word to idx = í '<NULL>": 0, 'cat': 2, 'dog: 3 } 
V= 


len( word to idx ) 
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T=13 


model = CaptioningRNN( word to idx, input dim = D, wordvec dim = W, hidden dim = Н, cell type = 'rnn' ) 
for k, v in model.params.iteritems( ) : 
model.params[ k ] = np.linspace( -1.4, 1.3, num = v.size ).reshape( *v.shape ) 
features = np.linspace( -1.5, 0.3, num = ( N * D ) ).reshape( N. D ) 
captions = ( np.arange( N * T ) % У ).reshape( N, Т) 
loss, grads — model.loss( features, captions ) 
expected loss — 9.83235591003 
print ' 损 失 : ', loss 
print ' 期 望 损失 : ', expected loss 
print 1x25: ', abs( loss - expected loss ) 








损失 误差 代码 检验 结果 : 
损失 : 9.83235591003 
期 望 损失 : 9.83235591003 
误差 : 2.61302091076e-12 





梯度 检验 代码 块 : 


batch size = 2 





timesteps = 3 

input_dim = 4 

wordvec dim = 5 

hidden dim = 6 

word to idx = {'<NULL>": 0, ‘сае: 2, 'dog': 3 } 

vocab size — len( word to idx ) 

captions — np.random.randint( vocab size, size — ( batch size, timesteps ) ) 

features = np.random.randn( batch size, input. dim ) 

model = CaptioningRNN( word to idx, input dim = input dim, 

wordvec dim = wordvec dim, 

hidden dim — hidden dim, cell type — 'rnn' ) 

loss, grads = model.loss( features, captions ) 

for param name in sorted( grads ) : 
f= lambda : model.loss( features, captions )[ 0 ] 
param grad num = eval numerical gradient( f, model.params[ param name ], verbose = False, h = le-6 ) 
е = rel error( param grad num, grads[ param name ] ) 


print '%s 相对 误差 : %e' % ( param. name, е) 








期 望 的 梯度 误差 结果 : 








W_embed 相对 误差 : 1.245927e-09 
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W proj 相对 误差 : 9.670782e-09 
W_vocab 相对 误差 : 6.312240e-09 
Wh 相对 误差 : 5.279688e-09 


Wx 相对 误差 : 2.935529e-06 

b 相对 误差 : 4.846914e-09 
b_proj 相对 误差 : 9.691756e-10 
b_vocab 相对 误差 : 3.245528e-11 





e ”过 拟 合 数 据 检 验 
RNN 少量 数据 上 训练 损失 情况 如 图 7-12 所 示 。 
过 拟 合 训练 代码 模块 : 


small data = load coco data( max train = 50 ) 








small mn model = CaptioningRNN( cell type = 'rnn', word to idx = data['word to idx' ], 
input dim = data[ 'train_features' ].shape[ 1 ], 
hidden dim = 512, wordvec dim = 256, ) 

small mn solver = CaptioningTrainer( small rmn model, small data, 
update rule — 'adam', num epochs — 50, batch size — 25, 
updater config = í "learning rate": 5e-3, }, Ir decay = 0.95, 
verbose = True, print every = 10, ) 

small mn solver.train( ) 

# 绘制 训练 损失 。 

plt.plot( small_rnn_solver.loss_history ) 

plt.xlabel( 'Iteration' ) 

plt.ylabel( 'Loss' ) 

plt.title( 'Training loss history' ) 

plt.show( ) 








损失 值 变化 情况 : 

(Iteration 1 / 100) loss: 77.138842 
(Iteration 11 / 100) loss: 26.276039 
(Iteration 21 / 100) loss: 7.757745 
(Iteration 31 / 100) loss: 1.367408 
(Iteration 41 / 100) loss: 0.532885 
(Iteration 51 / 100) loss: 0.239287 
(Iteration 61 / 100) loss: 0.186712 
(Iteration 71 / 100) loss: 0.156235 
(Iteration 81 / 100) loss: 0.148110 
(Iteration 91 / 100) loss: 0.123265 
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Training loss history 














° 20 40 60 80 100 
eration 


图 7-12 RNN 少量 数据 上 训练 损失 情况 


7.5 LSTM 编程 练习 


LSTM 是 实践 中 效果 最 好 的 循环 网 络 之 一 ， 但 其 传播 过 程 可 能 会 有 些 烦琐 ， 在 编程 时 需 
要 仔细 且 耐 心 。 接 下 来 。 我 们 就 开始 LSTM 的 编码 工作 。 


7.5.1 LSTM 单 步 传播 


。 单 步 前 向 传播 


打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 Istm_step_forward 函数 代 
人 码 ， 实 现 LSTM 的 单 步 前 向 传播 。 


Istm_step_forward 函数 代码 块 : 
def Istm_step_forward( x, prev_h, prev c, Wx, Wh, b): 
LSTM 单 步 前 向 传播 。 
Inputs: 
-x: 输入 数据 (N. D )。 
-prev h: 前 一 隐藏 层 状态 (N.H) 
-prev c: 前 一 细胞 状态 ( N, Н )。 
- Wx: 输入 层 到 隐藏 层 权重 ( D, 4H )。 
- Wh: 隐藏 层 到 隐藏 层 权 重 ( H, АН )。 
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-b: 偏 置 项 ( 4H, )。 

Returns 元 组 : 

-next h: 下 一 隐藏 层 状态 (N, H )。 
-next с: 下 一 细胞 状态 ( N, Н )。 
-cache: 反 向 传播 所 需 的 缓存 。 





next_h, next_c, cache = None, None, None 
HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHBHHBHHHHHHHHHNHE 


# 任务 : 实现 LSTM 单 步 前 向 传播 。 # 
# 提示 : 稳定 版 本 的 sigmoid 函数 已 经 帮 你 实现 ， 直 接 调 用 即 可 。 # 
# tanh 函数 使 用 np.tanh。 # 


THHHHHHHHHHHHHHHHHHBHHHHHHHBHHHHHHHHBHHHHHHBHHHHHHHBHHHHHBHHHHHHHHHHHHHE 


THHHHHHHHHHHHBHHHHHHBHHHHHHHBHHHHHHHHBHHHHHBHHHHHHHBHHHHHHHHHHHHHHBHHHHEE 
# 结束 编码 # 
Hii 


return next_h, next_c, cache 





运行 下 列 代码 ， 实 现 的 误差 应 该 在 le-8 以 内 。 
lstm_step_forward 函数 代码 检验 模块 : 





N, D, H=3,4, 5 
x = np.linspace( -0.4, 1.2, num = N * D ).reshape( N, D ) 
prev h- np.linspace( -0.3, 0.7, num = N * H ).reshape( №, Н ) 


prev_c np.linspace( -0.4, 0.9, num = N * H ).reshape( N, H ) 
Wx = np.linspace( -2.1, 1.3, num = 4 * D * Н ).reshape( D. 4 * Н) 
Wh = np.linspace( -0.7, 2.2, num = 4 * H * Н ).reshape( H, 4 * H ) 
b=np.linspace( 0.3, 0.7, num = 4 * Н) 
next h, next c, cache = Istm_step_forward( x, prev_h, prev c, Wx, Wh, b ) 
expected next h = np.asarray( [ 
[0.24635157, 0.28610883, 0.32240467, 0.35525807, 0.38474904 ], 
[ 0.49223563, 0.55611431, 0.61507696, 0.66844003, 0.7159181 ], 
[ 0.56735664, 0.66310127, 0.74419266, 0.80889665, 0.858299 ]]) 
expected next c = np.asarray( [ 
[0.32986176, 0.39145139, 0.451556, 0.51014116, 0.56717407 ], 
[0.66382255, 0.76674007, 0.87195994, 0.97902709, 1.08751345 ], 
[0.74192008, 0.90592151, 1.07717006, 1.25120233, 1.42395676]]) 
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print 'next_h 3x25: ' rel error( expected next h, next h ) 


print 'next_c 误差 : ' rel error( expected next c, next с) 








Istm step forward 代码 检验 结果 : 


next_h 误差 : 5.70541311858e-09 
next c 误差 : 5.81431230888е-09 











° LSTM 单 步 反 向 传播 


打开 “DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 lstm_step_backward 函数 代 
码 ， 实 现 LSTM 的 单 步 反 向 传播 。 


Istm_step_backward 函数 代码 块 : 
deflstm_step_backward( dnext_h, dnext_c, cache ) : 
LSTM 单 步 反 向 传播 。 

Inputs: 

-dnext h: 下 一 隐藏 层 梯度 (N, H )。 

= dnext_c: 下 一 细胞 梯度 ( N, H )。 

= cache: 前 向 传播 缓存 。 

Returns 元 组 : 

- dx: 输入 数据 梯度 ( N. D )。 

- dprev_h: 前 一 隐藏 层 梯度 ( N. H )。 

- dprev_c: 前 一 细胞 梯度 ( N. H), 

- dWx: 输入 层 到 隐藏 层 梯度 (D, 4H )。 

-dWh: 隐藏 层 到 隐藏 层 梯度 ( H, 4H )。 

- db: 偏 置 梯度 ( 4H, )。 





dx, dprev_h, de, dWx, dWh, db = None, None, None, None, None, None 
TIHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHNE 


# 任务 : 实现 LSTM 单 步 反 向 传播 。 # 
# 提示 : sigmoid( x ) 函 数 梯 度 : sigmoid( x ) * ( 1- sigmoid( x ) ) # 
# tanh( x ) 函 数 梯度 :1 - tanh( x ) * tanh( x ) # 


THHHHHHHHHHHHBHHHHHHBHHBHHHBHBHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHE 
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THBHHBHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHRHHE 
# 结束 编码 # 
THHHHHHE EEE HE AEE HHH HHHH HHH HH HHH HH HHHH HHH HH HHHH HRH HHH HHHH HHHH HHH HH HHHH HHE 
return dx, dprev_h, dprev_c, dWx, dWh, db 














Istm_step_backward 梯度 检验 代码 块 : 





N, D, H =4, 5,6 

x = np.random.randn( N, D ) 

prev_h = np.random.randn( N, H ) 

prev_c = np.random.randn( N, H ) 

Wx = np.random.randn( D, 4 * H ) 

Wh = np.random.randn( H, 4 * H ) 

b = np.random.randn( 4 * H ) 

next h, next c, cache = Istm step forward( x, prev h, prev с, Wx, Wh, b ) 
dnext h — np.random.randn( *next h.shape ) 

dnext c = np.random.randn( *next_c.shape ) 

fx_h = lambda x: Istm_step_forward( x, prev h, prev с, Wx, Wh, b )[ 0] 

fh h = lambda h: Istm step. forward( x, prev h, prev с, Wx, Wh, b )[ 0] 

fc h = lambda c: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 0 ] 

fWx h- lambda Wx: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 0] 
fWh_h = lambda Wh: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 0] 

fb h = lambda b: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 0] 

fx c = lambda x: lstm step forward( x, prev h, prev c, Wx, Wh, b )[ 1 ] 

fh c = lambda h: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 1] 

fc c = lambda c: lstm step forward( x, prev h, prev c, Wx, Wh, b )[ 1 ] 

fWx c = lambda Wx: lstm step forward( x, prev h, prev c, Wx, Wh, b )[ 1] 
fWh c = lambda Wh: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 1] 

fb c = lambda b: Istm step forward( x, prev h, prev c, Wx, Wh, b )[ 1] 

num grad = eval numerical gradient array 

dx num = num grad( fx h, x, dnext h ) + num grad( fx c, x, dnext c ) 

dh num = num grad( fh h, prev h, dnext h ) + num grad( fh c, prev h, dnext с) 
dc num = num grad( fc h, prev c, dnext h ) + num grad( fc c, prev c, dnext с) 
dWx num = num grad( fWx h, Wx, dnext h ) + num grad( fWx c, Wx, dnext с) 
dWh num = num grad( fWh h, Wh, dnext h ) + num grad( fWh c, Wh, dnext с) 
db num = num grad( fb h, b, dnext h ) + num grad( fb c, b, dnext с) 

dx, dh, dc, dWx, dWh, db = Istm step backward( dnext h, dnext c, cache ) 
print'dx 误差 : ', rel error( dx. num, dx ) 

print 'dh 误差 : ', rel error( dh. num, dh ) 
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print 'de 1x25: ', rel error( іс num, dc ) 
print 'dWx 3x25: ', rel error( dWx. num, dWx ) 


print 'dWh 误差 : ', rel error( dWh. пит, dWh ) 
print 'db 误差 : ', rel error( db. num, db ) 








梯度 检验 结果 : 

dx 误差 : 2.24750611741е-10 
dh 误差 : 8.31744482897e-10 
dc 误差 : 1.1349577207e-09 
dWx 误差 : 2.02890276008e-09 
dWh 误差 : 7.78920750327e-09 
db 误差 : 1.29574707381e-09 








7.5.2 LSTM 时 序 传播 


° LSTM 前 向 传播 


现在 将 单 步 前 向 传播 组 合 起 来 ， 完 成 完整 的 时 序 传播 。 打 开 
“DLAction/classifiers/chapter7/rnn_layers.py” 文 件 ， 完 成 lstm_forward 函数 代码 ， 实 现 LSTM 
的 前 向 传播 。 

Istm_forward 函数 代码 块 : 
deflstm_forward( x, h0, Wx, Wh, b ) : 
LSTM 前 向 传播 。 
Inputs: 
-x 输入 数据 (N,T,.D )。 
- h0: 初 始 化 隐藏 层 状态 ( N, Н )。 
- Wx: 输入 层 到 隐藏 层 权重 (D, 4H )。 
- Wh: 隐藏 层 到 隐藏 层 权重 ( H, 4H )。 
- b: 偏 置 项 ( 4H, )。 
Returns 元 组 : 
-h: 隐藏 层 所 有 状态 (N,T,H)。 
- cache: 用 于 反 向 传播 的 缓存 。 
h, cache = None, None 
HERE H H H E H H H H H HH H HH H H HH H HH H HHH HH HHH HHE 
# 任务 : 实现 完整 的 LSTM 前 向 传播 。 # 
HERE HH HH HHH HH H HHHH H HH H HH HHH HHHH HH HHH HiH 
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JHHHHBHHBHHBHHBHHBHHHHHHHHHHHHHHHHHHHRHE VHHHHHHHHHHHHHBHHHHHHE 


# 结束 编码 # 
Т caddie dada 














return h, cache 
运行 下 列 代码 ， 实 现 误差 应 该 在 le-7 以 内 。 


Istm_forward 函数 代码 检验 模块 : 

N, D, H, T=2, 5, 4,3 

x = np.linspace( -0.4, 0.6, num = N * T * D ).reshape( N, T, D ) 

h0 = np.linspace( -0.4, 0.8, num = N * H ).reshape( N, Н) 

Wx = np.linspace( -0.2, 0.9, num = 4 * D * Н ).reshape( D, 4 * Н) 
Wh = np.linspace( -0.3, 0.6, num = 4 * Н * Н ).reshape( H, 4 * H ) 
b = np.linspace( 0.2, 0.7, num = 4* Н) 

h, cache = Istm forward( х, h0, Wx, Wh, b ) 

expected h = np.asarray( [ 

[[0.01764008, 0.01823233, 0.01882671, 0.0194232 ], 
[0.11287491, 0.12146228, 0.13018446, 0.13902939 ], 
[0.31358768, 0.33338627, 0.35304453, 0.37250975 ] ], 

[[0.45767879, 0.4761092, 0.4936887, 0.51041945 ], 
[0.6704845, 0.69350089, 0.71486014, 0.7346449 ], 
[0.81733511, 0.83677871, 0.85403753, 0.86935314]]]) 

print'h 1x25: ', rel error( expected h,h ) 








期 望 的 检验 结果 : 
h 误差 : 8.61053745211e-08 








° LSTM 反 向 传播 

现在 将 单 步 反 向 传播 组 合 起 来 ， 完 成 完整 的 时 序 反 向 传播 。 打 开 
“DLAction/classifiers/chapter7/rnn_layers.py ”文件 , 完成 lstm_backward 函数 代码 , 实现 LSTM 
9 反 向 传播 。 


lstm_backward 函数 代码 块 : 
def lstm_backward( dh, cache ) : 


mn 


LSTM 反 向 传播 。 
Inputs: 
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- dh: 各 隐藏 层 梯度 ( N, T, H )。 

-cache: V 前 向 传播 缓存 。 

Retums 元 组 : 

-dx: 输入 数据 梯度 (N, T, D). 

- dh0: 初 始 隐藏 层 梯度 ( N. Н )。 

-dWx: 输入 层 到 隐藏 层 权重 梯度 ( D, 4H )。 

-dWh: 隐藏 层 到 隐藏 层 权重 梯度 (H, 4H )。 

- db: 偏 置 项 梯度 (4H, )。 

dx, dh0, dWx, dWh, db = None, None, None, None, None 

EE HE AEE EAE HEE HE HHHH HH 
# 任务 : 实现 完整 的 LSTM 反 向 传播 。 # 
La HEHE HEHEHE HEHH HHE Ea 


JBIHBHHBHHHHHBHHBHHBHHBHHBHHBHBDHHHHHHUHHUHHHHHHHHHHHBHHHHHHHHHHE 
# 结束 编码 # 
EHEHEHEH HEHEHEHEHE HEHEHEHEHE HEHEHEHEHE HEHEHEHEHE 
return dx, dh0, dWx, dWh, db 


运行 下 列 代码 ， 误 差 大 约 在 le-8。 


LSTM 反 向 传播 梯度 检验 代码 块 : 

N,D,T,H=2,3, 10,6 

x = np.random.randn( N, T, D ) 

h0 = np.random.randn( N. H ) 

Wx = np.random.randn( D, 4 * Н ) 

Wh = np.random.randn( H, 4 * H ) 

b = np.random.randn( 4 * H ) 

out, cache = Istm_forward( x, h0, Wx, Wh, b ) 

dout = np.random.randn( *out.shape ) 

dx, dh0, dWx, dWh, db = Istm_backward( dout, cache ) 
fx = lambda x: Istm_forward( x, h0, Wx, Wh, b )[ 0] 

fh0 = lambda h0: Istm_forward( x, h0, Wx, Wh, b )[ 0 ] 
fWx = lambda Wx: Istm_forward( x, h0, Wx, Wh, b )[ 0] 
fWh = lambda Wh: Istm_forward( x, h0, Wx, Wh, b )[ 0] 
fb = lambda b: Istm_forward( x, h0, Wx, Wh, b )[ 0] 





dx_num = eval_numerical_gradient_array( fx, x, dout ) 
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dhO_num = eval numerical gradient array( fh0, h0, dout ) 
dWx_num = eval numerical gradient array( fWx, Wx, dout ) 
dWh num = eval numerical gradient array( fWh, Wh, dout ) 
db num = eval numerical gradient array( fb, b, dout ) 
print'dx 1x25: ' rel. error( dx num, dx ) 

print 'dh0 1x35: ', rel error( dx num, dx ) 

print 'dWx 误差 : ,rel_error( dx num, dx ) 

print'dWh 误差 : ', rel. error( dx num, dx ) 

print 'db 1x25: ' rel. error( dx num, dx ) 








梯度 检验 结果 : 

dx 误差 : 9.59964787707e-10 
dh0 误差 : 9.59964787707e-10 
dWx 误差 : 9.59964787707e-10 
dWh 误差 : 9.59964787707e-10 
db 误差 : 9.59964787707e-10 











7.5.8 LSTM 实现 图 片 说 明 任 务 


打开 “DLAction/classifiers/chapter7/rnn.py” 文 件 ， 完 成 LSTM 模式 下 的 损失 计算 。 由 于 
之 前 已 经 完成 了 RNN 模式 ， 现 在 只 需要 添加 少量 代码 即 可 。 完 成 编码 后 运行 下 列 代码 。 


LSTM 模式 代码 检验 : 

N, D, W, H = 10, 20, 30, 40 

word to idx = {'<NULL>": 0, 'cat': 2, ‘dog’: 3 } 

У = Іеп( word to idx ) 

T=13 

model = CaptioningRNN( word to idx, input dim = D, wordvec dim = W, hidden dim = Н, cell type = 'Istm' ) 






for k, v in model.params.iteritems( ) : 
model.params[ k ] = np.linspace( -1.4, 1.3, num = v.size ).reshape( *v.shape ) 
features = np.linspace( -0.5, 1.7, num = N * D ).reshape( N. D ) 
captions = ( np.arange( N * T ) % V ).reshape( N, Т) 
loss, grads — model.loss( features, captions ) 
expected loss — 9.82445935443 
print ЭЯ fH: ', loss 
print ' 期 望 损失 值 : ', expected loss 
print ' 误 差 : ', abs( loss - expected loss ) 
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LSTM 损失 值 检验 结果 : 
损失 值 : 9.82445935443 





期 望 损 失 值 : 9.82445935443 
误差 : 2.26485497024e-12 





° LSTM 过 拟 合 测试 


和 RNN 类 似 , 我 们 测试 LSTM 能 否 在 小 数据 集 上 过 拟 合 。LSTM 少量 数据 上 训练 损失 情 
况 如 图 7-13 所 示 。 


LSTM 过 拟 合 测试 代码 块 : 


small data = load coco data( max train = 50 ) 








small lstm model = CaptioningRNN( cell type = 'Istm', 
word to іх = data[ 'word to idx' ], 
input dim = data[ 'train features' ].ѕһаре[ 1 ], 
hidden dim = 512, wordvec dim = 256 ) 
small Istm solver = CaptioningTrainer( small Istm model, small data, update rule = 'adam', 
num epochs = 50, batch size = 25, 
updater config = { "learning rate": 5e-3, 1, 
lr decay-0.995, verbose = True, print every = 10, ) 
small Istm solver.train( ) 
plt.plot( small Istm solver.loss history ) 
plt.xlabel( ‘Iteration’ ) 
plt.ylabel( 'Loss' ) 
plt.title( "Training loss history' ) 
plt.show( ) 





训练 损失 值 变化 结果 : 

(Iteration 1 / 100) loss: 80.749666 
(Iteration 11 / 100) loss: 49.919856 
(Iteration 21 / 100) loss: 27.695865 
(Iteration 31 / 100) loss: 17.968135 
(Iteration 41 / 100) loss: 8.942594 
(Iteration 51 / 100) loss: 2.322836 
(Iteration 61 / 100) loss: 1.350197 
(Iteration 71 / 100) loss: 0.482612 
(Iteration 81 / 100) loss: 0.353356 
(Iteration 91 / 100) loss: 0.185770 
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Training loss history 
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7-13. LSTM 少量 数据 上 训练 损失 情况 


7.6 参考 代码 


7.6.1 RNN 参考 代码 





mn_step_forward 函数 代码 块 : 
defrnn step forward( x, prev h, Wx, Wh, b ) : 


next h, cache = None, None 

а = prev h.dot( Wh ) + x.dot( Wx ) +b 
next h = np.tanh( a ) 

cache = (x, prev h, Wh, Wx, b, next h ) 


return next h, cache 





mn step backward 函数 代码 块 : 
defrnn step backward( dnext_h, cache ) : 


dx, dprev_h, dWx, dWh, db = None, None, None, None, None 





x, prev h, Wh, Wx, b, next h = cache 
dscores = dnext h * ( 1 - next h * next h) 
dWx = np.dot( x.T, dscores ) 

db = np.sum( dscores, axis = 0 ) 


dWh = np.dot( prev h.T, dscores ) 
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dx = np.dot( dscores, Wx.T ) 


dprev h- np.dot( dscores, Wh.T ) 
return dx, dprev h, dWx, dWh, db 





rnn. forward 函数 代码 块 : 
def rnn_forward( x, h0, Wx, Wh, b): 
h, cache = None, None 
N, T, D = x.shape 
(Н, )=b.shape 
h = np.zeros( ( N, T, H ) ) 





prev_h=h0 
for t in range( Т): 
xt=x[:,t,:] 
next_h, _= rnn_step_forward( xt, prev h, Wx, Wh, b ) 
prev_h = next_h 
h[ :, t, : ]=prev_h 
cache = ( x, h0, Wh, Wx, b, h ) 


return h, cache 








mn_backward 函数 代码 块 : 


defrnn backward( dh, cache ) : 
dx, dh0, dWx, dWh, db = None, None, None, None, None 
x, h0, Wh, Wx, b, h = cache 
N, T, H = dh.shape 


_,_, D = x.shape 

next h=h[: ,T-1,:] 
dprev_h = npzeros( (№, H ) ) 
dx = np.zeros( ( N, T, D ) ) 
dh0 = np.zeros( ( N, H ) ) 
dWx= np.zeros( ( D, H ) ) 
dWh = np.zeros( ( H, H ) ) 
db = np.zeros( (Н, ) ) 
fortinrange( Т): 


t-T-1-t 
= 15] 
ift 一 0 : 

prev_h=h0 
else: 





prev h=h[:,t-1,:] 
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step_cache = ( xt, prev_h, Wh, Wx, b, next_h ) 
next_h=prev_h 
dnext h = dh[ :.t,:] + dprev h 
dx[:,t,:], dprev h, dWxt, dWht, dbt = rnn step backward( dnext h, step cache ) 
dWx, dWh, db = dWx + dWxt, dWh + dWht, db + dbt 
dh0 = dprev h 
return dx, dh0, dWx, dWh, db 








word embedding forward 函数 代码 块 : 





def word embedding forward( x, W ) : 
out, cache = None, None 
N, T = x.shape 
V, D= W.shape 
out = np.zeros( ( N, T, D ) ) 
for i in range( N ) : 
for j in range( T): 
ou i,j] = W[x[ ¿j]] 
cache = ( x, W.shape ) 


return out, cache 


g backward 函数 代码 块 : 
def word embedding backward( dout, cache ) : 
dW - None 


word embeddi 





x, W shape = cache 

dW = np.zeros( МУ shape ) 
np.add.at( dW, x, dout ) 
return dW 








CaptioningRNN 损失 函数 : 

def loss( self, features, captions ) : 
captions in = captions[ : , : -1 ] 
captions out = captions[ : , 1 : ] 
# 掩 码 
mask = ( captions out != self. null ) 
# 图 像 仿 射 转换 矩阵 
W_proj, b_proj = selfparams["W_proj ], sel£params['b proj'] 
# КАЖЕ 
W embed = self.params[ 'W_embed' ] 
# RNN 参数 
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Wx, Wh, b = self.params[ 'Wx' ], self.params[ 'Wh' ], self.params| 'b' ] 
# 隐藏 层 输 出 转化 矩阵 
W_vocab, b_vocab = self.params[ 'W_vocab' ], self.params['b vocab'] 
loss, grads = 0.0, { } 
#(1) 
h0, cache h0 = affine forward( features, W_proj, b_proj ) 
#(2) 
x, cache_embedding = word_embedding_forward( captions_in, W_embed ) 
#(3) 
if self.cell_type == 'rnn': 
out h, cache rnn = rnn forward( x, h0, Wx, Wh, b ) 
elif self.cell type == 'Istm': 
out h, cache rnn = Istm_forward( x, h0, Wx, Wh, b ) 
else: 
raise ValueError( "Invalid cell type "%s" ' % self.cell type ) 
#(4) 
yHat, cache_out = temporal_affine_forward( out_h, W_vocab, b_vocab ) 
#(5) 
loss, dy = temporal softmax loss( yHat, captions out, mask, verbose = False ) 
# 计算 梯度 
dout_h, dW_vocab, db_vocab = temporal_affine_backward( dy, cache_out ) 
if self.cell_type = 'rnn': 
dx, dh0, dWx, dWh, db = mn_backward( dout_h, cache_rnn ) 
elif self.cell_type == 'Istm': 
dx, dh0, dWx, dWh, db = Istm_backward( дош h, cache тп) 
else: 
raise ValueError( "Invalid cell type "%s" ' % self.cell type ) 
dW embed = word embedding backward( dx, cache embedding ) 
dfeatures, dW_proj, db proj = affine backward( dh0, cache ҺО ) 
grads[ 'W_proj' ] = dW proj 
grads[ 'b_proj' ] = db_proj 
grads[ М embed' ] = dW embed 
grads[ 'Wx' | = dWx 
grads[ 'Wh' ] = dWh 
grads[ 'b' ] = db 
grads[ 'W_vocab' ] = dW_vocab 





grads[ 'b_vocab' ] = db vocab 


return loss, grads 
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测试 阶段 采样 输出 代码 块 : 
def sample( self, features, max_length = 30 ) : 





N = features.shape[ 0 ] 
captions = self. null * np.ones( ( N, max length ), dtype = np.int32 ) 
W proj, b proj = self.params[ 'W proj' ], self.params[ 'b ргој' ] 
W embed = self.params[ 'W_embed' ] 
Wx, Wh, b = self.params[ 'Wx' ], self.params[ 'Wh' ], self.params[ 'b' ] 
W vocab, b vocab = self.params[ 'W_vocab' ], self.params[ 'b_vocab' ] 
N, D - features.shape 
affine out, affine cache — affine forward( features , W proj, b proj ) 
prev word idx = [ self. start] * N 
prev h = affine out 
prev с = np.zeros( prev h.shape ) 
captions[ : , 0 ] — self. start 
foriinrange( 1, max length ) : 
prev word embed = W embed[ prev word idx ] 
if sel£.cell type == 'mn': 
next h, mn step cache = rnn step forward( prev word embed,prev h, Wx, Wh, b ) 
elif self.cell type == 'Istm': 
next h, next с, Istm step cache = Istm step forward( prev word embed, 
prev h, prev c, Wx, Wh, b ) 
prev c = next c 
else: 
raise ValueError( 'Invalid cell type "%s" ' % self.cell type ) 
vocab affine out, vocab affine out cache = affine forward( next h, W_vocab,b_vocab ) 
captions[ : , i] = list( np.argmax( vocab affine out, axis = 1 ) ) 
prev word idx = captions[ : , i] 


prev h- next h 





return captions 





76.2 LSTM 参考 代码 





Istm step forward 函数 代码 块 : 
deflstm step forward( x, prev_h, prev c, Wx, Wh, b): 





next h, next c, cache — None, None, None 
N, D = x.shape 
N, H = prev_h.shape 
input gate = sigmoid( np.dot( x, Wx[ : , 0: H ] ) + np.dot( 
prev h, Wh[:,0:H])+b[0:H]) 
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forget gate = sigmoid( np.dot( x, Wx[ : , H : 2 * H ] ) + np.dot( 
prev h, Wh[:,H:2*H])+b[H:2*H]) 
output gate = sigmoid( np.dot( x, Wx[:.2*H:3*H ]) + np.dot( 
prev h, Wh[:,2*H:3*H]) * b[2*H:3*H]) 
input = np.tanh( np.dot( x, Wx[:,3 * H : 4 * H ] ) + np.dot( 
prev h, Wh[:,3*H:4*H]) * b[3*H:4*H]) 
next с = forget gate * prev c + input * input. gate 
next scores с np.tanh( next с) 
next h = output gate * next scores c 
cache = ( x, Wx, Wh, b, input, input gate, output gate, forget gate, prev h, prev c, next scores с) 


return next h, next c, cache 














Istm step backward 函数 代码 块 : 


def Istm_step_backward( dnext_h, dnext c, cache ) : 
dx, dprev_h, de, dWx, dWh, db = None, None, None, None, None, None 
x, Wx, Wh, b, input, input gate, output gate, forget gate, prev_h, prev c, next scores c = cache 
N, D = x.shape 
N, H= prev h.shape 
dWx = np.zeros( ( D, 4 * H )) 
ахх = np.zeros( ( D, 4* H ) ) 
dWh = np.zeros( ( H, 4 * H )) 
dhh = np.zeros( ( H, 4 * H) ) 
db =np.zeros( 4 * H ) 
dx =np.zeros( ( N, D ) ) 
dprev_h = np.zeros( ( N, H ) ) 
dc tem = dnext c + dnext h * ( 1 - next scores c **2 ) * output gate 
dprev с = forget gate * dc tem 
dforget gate — prev c * dc tem 
dinput gate — input * dc tem 
dinput — input gate * dc tem 
doutput gate — next scores c * dnext h 
dscores in gate = input gate * ( 1 - input gate ) * dinput gate 
dscores forget gate = forget gate * ( 1 - forget gate ) * dforget gate 
dscores out gate — output gate * ( 1 - output gate ) * doutput gate 
dscores in = ( 1 — input **2 ) * dinput 
da = np.hstack( ( dscores in gate, dscores forget gate, dscores out gate, dscores in ) ) 
dWx = np.dot( x.T, da ) 
dWh = np.dot( prev h.T, da ) 
db = np.sum( da, axis = 0 ) 
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dx =np.dot( da, Wx.T ) 
dprev h = np.dot( da, Wh.T ) 
retum dx, dprev h, dprev c, dWx, dWh, db 





Istm forward 函数 代码 块 : 





def Istm_forward( x, h0, Wx, Wh, b ) : 
h, cache = None, None 
N, T, D = x.shape 
H = b.shape[ 0 ] / 4 
h= np.zeros( ( N, T, H )) 
cache = { } 
prev_h=h0 
prev с = npzeros( ( N, H )) 
for t in range( Т): 
xt=x[:,t,:] 
next h, next c, cache[ t] = Istm_step_forward( xt, prev_h, prev c, Wx, Wh, b ) 
prev h = next h 
prev c = next c 
h[:,t,:]7 prev h 


return h, cache 


Istm backward 函数 代码 块 : 
def Istm_backward( dh, cache ) : 
dx, dh0, dWx, dWh, db = None, None, None, None, None 
N, T, H = dh.shape 
x, Wx, Wh, b, input, input_gate, output_gate, forget_gate, prev_h, prev_c, next_scores_c = cache[ T — 1 ] 
D = х.ѕһаре[ 1 ] 
dprev h = np.zeros( (№, H ) ) 
dprev_c = np.zeros( ( N, Н ) ) 
dx = np.zeros( ( N, T, D )) 
dh0 = np.zeros( ( N, H) ) 
dWx= np.zeros( ( D, 4 * H )) 
dWh = np.zeros( ( H, 4 * H ) ) 
db = np.zeros( (4 * H, ) ) 
for t in range( Т): 
t-T-1-t 
step cache = cache[ t ] 
dnext h — dh[ : „t , :] + dprev h 


dnext c = dprev c 
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dx[:,t,:], dprev_h, dprev c, dWxt, dWht, dbt = Istm_step_backward(dnext_h, dnext_c, step_cache ) 
dWx, dWh, db = dWx + dWxt, dWh + dWht, db + dbt 


dh0 = dprev_h 
return dx, dh0, dWx, dWh, db 
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在 本 书 前 面 的 章节 中 我 们 介绍 了 大 量 常用 的 深度 学 习 技术 ， 我 们 一 步 一 步 实 现 了 
Softmax, DNN, CNN, RNN 和 LSTM 等 模型 。 但 很 遗憾 地 告诉 你 ， 你 实现 的 这 些 模型 仅 能 
作为 学 习 演 示 使 用 ， 它 们 根本 无 法 满足 实际 应 用 的 需要 ， 因 为 它们 的 运行 速度 实在 是 太 缓慢 
了 。 深 度 学 习 如 果 离 开 了 高 性 能 计算 的 支持 其 能 力 将 大 打折 扣 ， 本 章 我 们 选取 了 Google 的 
TensorFlow 开源 深度 学 习 库 作为 敲门砖 ， 帮 你 快速 地 进入 高 性 能 编程 世界 。 那 么 为 什么 要 选 
择 TensorFlow W? 很 简单 ， 因 为 它 发 展 实在 是 太 快 了 。 如 图 8-1 所 示 ， 是 2017 年 首届 
TensorFlow 开发 者 大 会 展示 的 TensorFlow 与 其 他 深度 学 习 平台 在 GitHub 上 的 发 展 趋势 统计 
图 。TensorFlow 只 花 了 一 年 的 时 间 就 已 经 远 超 了 其 他 的 深度 学 习 平 台 ， 并 且 这 种 趋势 还 在 不 
断 扩 大 。 目 前 TensorFlow 1.0 版 本 已 经 可 以 支持 Windows 平台 ， 这 给 开发 者 带 来 了 很 大 的 方 
便 。 接 下 来 我 们 就 正式 开始 我 们 的 TensorFlow 入 门 之 旅 。 
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8-1 TensorFlow 发 展 趋势 图 
8.4 TensorFlow 介绍 


TensorFlow 是 一 款 使 用 数据 流 图 (data. flow graphs) 进行 数值 计算 的 开源 软件 库 。 其 中 
节点 (Nodes) 在 数据 流 图 中 表示 数学 操作 ， 边 (Edges) 则 表示 在 节点 间 相 互通 信 的 多 维 数 
组 或 张 量 (Tensor) 。 该 框架 的 结构 非常 灵活 ， 只 需要 通过 单一 的 API 接口 就 可 将 TensorFlow 
部 署 到 笔记 本 、 服 务 器 、 移 动 设备 中 , 然后 使 用 一 个 或 多 个 CPU( 或 GPU ) 进 行 计 算 。TensorFlow 
最 初 是 由 隶属 于 Google 机 器 智能 研究 机 构 的 《Google 大 脑 》 项 目 团队 的 研究 员 和 工程 师 们 所 
研发 ， 并 用 于 机 器 学 习 和 深度 神经 网 络 方面 的 研究 。 相 比 于 其 他 的 深度 学 习 库 ，TensorFlow 
有 着 以 下 显著 特征 。 

e ”高 度 的 灵活 性 


TensorFlow 不 是 一 个 严格 的 神经 网 络 工具 库 , 如 果 你 能 将 计算 模型 表示 为 数据 流 图 形式 ， 
就 可 以 使 用 TensorFlow 进行 计算 。 你 只 需 构 建 数据 流 图 ， 描 写 驱动 计算 的 内 部 循环 ， 便 可 以 
利用 TensorFlow 提供 的 工具 来 帮助 你 组 装 计算 子 图 〈 常 用 于 神经 网 络 ) 。 用 户 也 可 以 在 
TensorFlow 基础 上 编写 个 性 化 的 高 层 学 习 库 , 并 且 定义 新 的 复合 操作 和 写 一 个 Python 函数 一 
样 容易 ， 也 不 需要 担心 性 能 损耗 。 当 然 你 也 可 以 自己 写 一 点 C++ 代码 来 丰富 TensorFlow 的 底 
层 操 作 。 


° ”真正 的 可 移植 性 














TensorFlow 可 以 运行 在 台式 机 、 服 务 器 、 手 机 等 设备 中 。 如 果 你 灵机 一 动 有 了 机 器 学 习 的 
新 想法 ， 但 却 没有 待 在 实验 室 ， 可 以 享用 配置 高 昂 的 计算 设备 。 这 时 ， 只 需要 轻松 地 打开 自己 
的 笔记 本 便 可 快速 地 使 用 TensorFlow 实现 算法 。 如 果 你 想 将 训练 模型 在 多 个 CPU 上 分 布 式 运 
算 又 不 想 修改 代码 ，TensorFlow 可 以 轻松 地 办 到 。 如 果 你 想 要 将 训练 好 的 模型 作为 产品 的 一 部 
分 应 用 到 手机 App 里 ，TensorFlow 也 可 以 轻松 地 办 到 。 甚 至 你 想 要 将 训练 好 的 模型 作为 云端 服 
务 运 行 在 自己 的 服务 器 上 ， 或 者 运行 在 Docker 容器 里 ，Tensorfow 也 能 快速 地 办 到 。 
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° 科研 和 产品 同步 


过 去 如 果 要 将 科研 中 的 机 器 学 习 想 法 应 用 到 产品 中 ， 需 要 大 量 的 代码 重 写 工 作 。 但 在 
Google， 科 学 家 用 TensorFlow 尝试 新 的 算法 , 产品 团队 则 用 TensorFlow 来 训练 和 使 用 计算 模 
型 , 并 直接 提供 给 在 线 用 户 。 使 用 TensorFlow 可 以 让 应 用 型 研究 者 将 想法 迅速 运用 到 产品 
也 可 以 让 学 术 型 研究 者 更 直接 地 彼此 分 享 代码 ， 从 而 提高 科研 产 出 率 。 


。 自动 求 微分 


基于 梯度 的 机 器 学 习 算 法 将 受益 于 TensorFlow 自动 求 微分 的 能 力 。 在 TensorFlow 中 , 只 
需要 定义 预测 模型 的 结构 ,并 将 这 个 结构 和 目标 函数 结合 在 一 起 , 在 添加 数据 后 ，TensorFlow 
将 自动 计算 相关 的 微分 导数 。 计 算 某 个 变量 相对 于 其 他 变量 的 导数 仅仅 是 通过 扩展 你 的 图 来 
完成 的 ， 所 以 你 能 一 直 清 楚 地 看 到 究 况 在 发 生 什 么 。 


€ ”多 语言 支持 


TensorFlow 有 一 个 合理 的 C++ 使 用 接口 , 也 有 一 个 易 用 的 Python 使 用 接口 来 构建 和 执行 
计算 流 图 。 你 可 以 直接 编写 Python/C++ 程 序 , 也 可 以 使 用 IPython 交互 式 界面 来 用 TensorFlow 
尝试 新 想法 ， 它 可 以 帮 你 将 笔记 、 人 代码、 可 视 化 等 有 条 理 地 归 置 好 。 当 然 你 也 可 以 使 用 自己 
POM a: Go. Java. Lua. Javascript 和 R 语言 来 构建 TensorFlow. 


° ”性 能 最 优化 


假设 你 有 一 个 32 核 CPU、4 个 GPU 显卡 的 工作 站 ， 由 于 TensorFlow 给 予 了 线程 、 队 列 、 
异步 操作 等 最 佳 的 支持 ， 可 以 让 你 的 硬件 计算 潜能 全 部 发 挥 出 来 。 你 可 以 自由 地 将 计算 图 中 
的 计算 元 素 分 配 到 不 同 设备 上 ，TensorFlow 可 以 帮 你 管理 好 这 些 不 同 的 副本 。 


8.22 TensorFlow 1.0 安装 指南 


本 节 我 们 将 介绍 如 何在 Win10 平台 下 安装 TensorFlow1.0， 并 使 用 NVIDIA 显卡 作为 
TensorFlow 计算 设备 。 目 前 Windows 平台 只 能 使 用 Python3.0+ 版 本 运行 TensorFlow， 并 且 由 
于 编译 问题 ， 其 今后 也 不 会 支持 Python2.7+ 版 本 。 因 此 我 们 将 使 用 
TensorFlow1.0+Python3.5+Cuda8.0 的 配置 进行 安装 。 如 果 你 的 计算 机 没有 GPU， 你 也 可 以 选 
择 安装 CPU 版 本 的 TensorFlow， 如 果 只 安装 CPU 版 本 ， 你 可 以 跳 过 8.2.2 及 8.2.3 节 ， 快 速 
进入 8.2.4 节 安 装 TensorFlow。 


8.2.1 双 版 本 切换 Anaconda 


由 于 本 书 之 前 的 章节 中 我 们 使 用 的 是 Python2.7+ 版 本 进行 编程 练习 ， 而 现在 需要 使 用 
Python3.0+ 版 本 搭建 TensorFlow， 因 此 我 们 推荐 使 用 Python 双 版 本 共存 的 方案 搭建 Python, 
首先 ， 读 者 可 以 使 用 以 下 网 址 下 载 Anaconda 对 应 的 Python3.0+ 版 本 : 
https://www.continuum.io/downloads#windows 。 


下 载 完毕 后 ， 双 击 .exe 文件 进行 安装 。 如 图 8-2 所 示 ， 我 们 首先 选择 Anaconda 的 安装 路 
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径 ， 本 教程 选择 的 路 径 是 ，“Dxpy3”。 选 择 完 之 后 单 击 “Next” 按钮 进行 下 一 步 。 


O Anaconda3 4.2.0 (64-bit) Setup = x 





š ANACONDA Choose the folder in which to install Anaconda3 4.2.0 (64-bit). 


Setup will install Anaconda3 4.2.0 (64-bit) in the following folder. To install in a different 
folder, dick Browse and select another folder. Click Next to continue. 


Destination Folder 
[ohpy3 Browse... 








Space required: 1.868 
Space available: 182.368 


I 


Continuum Analytics, Inc, — LM — —— 








图 8-2 Anaconda 安装 -路 径 选 择 


接 下 来 安装 对 话 框 如 图 8-3 所 示 ， 你 需要 将 “Add Anaconda to my PATH environment 
variable” Ж“ Register Anaconda as my default Python 3.5” 两 个 可 选项 撤 选 , 然后 再 单 击 “Install” 
按钮 进行 安装 即 可 。 





O Anaconda3 4.2.0 (64-bit) Setup = х 


p Advanced Installation Options 
6 ANACONDA Customize how Anaconda integrates with Windows 





Advanced Options 


[C Add Anaconda to my PATH environment variable 


This ensures that PATH is set correctly when using Python, IPython, 
conda, and any other program in the Anaconda distribution. 

If unchecked, then you must use the Anaconda Command Prompt 
(located in the Start Menu under "Anaconda (64-bit)"). 





口 Register Anaconda as my default Python 3.5: 

This will allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.5 on the system. 








Continuum Analytics, Inc 
ав [gm [aa 


8-3 Anaconda 安装 -高 级 选项 选择 
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安装 完成 之 后 ， 在 CMD 里 面 直接 输入 Python 会 启动 Python2， 而 使 用 “activate d:\py3” 
命令 之 后 ， 再 使 用 Python 即 可 切换 至 Python3。 如 图 8-4 所 示 ， 使 用 “activate d:\py3 ”命令 之 
后 ， 在 命令 行 前 面 会 出 现 一 个 [py3] 标 记 ， 此 时 使 用 任何 的 Python 命令 都 是 在 Python3 下 进行 
的 。 使 用 deactivate 命令 可 取消 激活 Python3 。 


activate d: Wy3 





(d:\py3) D:\>python 
ython 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC у. 1900 64 bit (AMD64)] on win32 
[Туре “help”, “copyright”, “credits” or “license” for more information. 


(d:Npy3) D:\>deactivate 


SL 





图 8-4 切换 Python 版 本 
8.2.2 安装 CUDA 8.0 


CUDA (Compute Unified Device Architecture) 是 一 种 由 NVIDIA 推出 的 通用 并 行 计算 架 
构 ， 该 架构 使 GPU 能 够 解决 复杂 的 计算 问题 。 它 包含 了 CUDA 指令 集 架 构 CISA) 以 及 GPU 
内 部 的 并 行 计算 引擎 .开发 人 员 可 以 使 用 C 语言 来 为 CUDA 架构 编写 程序 ,然后 在 支持 CUDA 
的 GPU 上 进行 超 高 性 能 运算 。 目 前 CUDA 已 经 发 展 到 8.0 版 本 , 读者 可 以 通过 以 下 网 址 下 载 
Windows 平台 的 CUDA 8.0 的 安装 版 本 : https://developer.nvidia.com/cuda-downloads, 如 图 8-5 
所 示 。 


re about CUDA Toolkit 8.0; 
J the Introduction to CUDA C and C++ Parallel Forall Blog Post. 
+ Read the CUDA 8 Features Revealed Parallel Forall Blog Post 
+ Review the What's New in CUDA 8 webinar. 
* Review the CUDA 8 Performance Overview Webinar, Slides. 


IBM Power Users: Download CUDA B from the CUDA Toolkit for IBM Power 8 Page. 


For Linux users upgrading from previous versions of the CUDA Toolkit, click to see instructions in this section before proceeding. 


Select Target Platform @ Related Links 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System 
Architecture Ө 


Version 


Installer Type Ө 


Download Installer for Windows 10 x86_64 


The base installer is available for download below. 








> Base Installer Download [1.3 GBI & 


图 8-5 CUDA8.0 下 载 界面 
CUDA 的 安装 也 比较 简单 ， 读 者 只 需 采 用 安装 界面 的 默认 设置 ， 依 次 单 击 “Next” 按 钮 
执行 安装 操作 即 可 。 需 要 注意 的 是 ，CUDA 需要 Microsoft Visual Studio 进行 编译 ， 如 果 没 有 
安装 过 Visual Studio， 读 者 也 可 以 选择 在 CUDA 安装 完成 之 后 再 安装 Visual Studio. 
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8.2.3 


GPU RA 


安装 cuDNN 





cuDNN (NVIDIA CUDA® Deep Neural Network library) 是 一 款 用 于 深度 神经 网 络 加速 的 
ERE. cuDNN 作为 NVIDIA 深度 学 习 SDK 的 一 部 分 ， 提 供 了 诸如 前 向 卷 积 、 反 向 卷 


积 、 池 化 、 归 一 化 、 激 活 函数 等 神经 网 络 的 常用 函数 。 目 前 深度 学 习 常 用 的 框架 : Caffe. 
TensorFlow、Theano、Torch 及 CNTK 都 需要 依赖 于 cuDNN 的 高 性 能 GPU 加 速 。 


读者 可 以 访问 https://developer.nvidia.com/cudnn 网 址 进行 下 载 。 该 过 程 也 非常 简单 , 读者 


只 需要 在 NVIDIA 官网 填写 一 些 注册 信息 就 可 以 选择 适合 你 的 版 本 进行 下 载 。 如 图 8-6 所 示 ， 
目前 cuDNN 有 Windows7 和 Windows10 两 种 版 本 ， 本 书 的 教程 使 用 的 是 cuDNN v6.0 Library 
for Windows 10 版 本 。 





下 载 完 毕 后 ， 可 以 将 该 文件 解压 到 自 定义 安装 路 径 ， 本 书 选择 的 路 径 为 : 
该 压缩 包 共 有 三 个 文件 夹 : bn lib 和 include 文件 ， 如 图 8-7 所 示 ， 需 要 将 bin 文件 夹 所 在 


cuDNN Download 


NVIDIA cuDNN is a GPU-accelerated library of primitives for deep neural networks. 


1 Agree To the Terms of the cuDNN Software License Agreement 
Please check your framework documentation to determine the recommended version of cuDNN 
It you are using cuDNN with a Pascal (GTX 1080, GTX 1070], version 5 or later is required. 


Download cuDNN vé.0 [April 27, 201 CUDA 8.0 
Download packages updated April 27, 2017 to resolve issues related to dilated convolution on Kepler Architecture GPUs. 
cuDNN t ( 


cuDNN Install Guide 


cuDNN v6.0 Libr 








FA 8-6 cuDNN 下 载 页 面 


径 添 加 到 系统 的 环境 变量 中 。 
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SESS x 


C:\Program Files (x86)\Intel\iCLS Clienti ^ FEN 
C:\Program Files\Intel\iCLS Clienti 
CAWindows\system32 == 
CAWindows 
CAWindows\System32\Wbem 250.. 
CAWindows\System32\WindowsPowerShel\v1.0\ 

CAProgram Files (x85)\NVIDIA Corporation\Physx\Common 
C:\Program Files (x86)\Intel\Intel(R) Management Engine Comp. 
CAProgram Files\IntelNntel(R) Management Engine Componen.. 
CAProgram Files (x85)\Intel\Intel(R) Management Engine Comp. 
CAProgram Files\Intel\Intel() Management Engine Componen... 
CAWINDOWS\system32 

CAWINDOWS. eo 
CAWINDOWS\System32\Wbem 
CAWINDOWS\System32\WindowsPowerShell\v1.0\, 
dAnaconda3 SEXO... 
dáAnaconda3 Scripts 
di\Anaconda3\Libray\bin 
DAMinGW\bin 
DAMinGW\lib 


ms 
图 8-7 cuDNN 环境 变量 设置 














8.2.4 安装 TensorFlow 


安装 完 以 上 软件 后 ， 接 下 来 我 们 开始 安装 TensorFlow. 在 安装 前 ， 记 得 将 Anaconda 切换 
到 Python3.0+ 版 本 。 和 否则 系统 默认 会 启动 Python2.7+ 版 本 的 Anaconda， 这 样 就 无 法 安装 
TensorFlow 了 。TensorFlow 的 安装 非常 简单 ， 如 下 所 示 ， 我 们 只 需 使 用 pip 命令 安装 相应 版 
本 即 可 。 


CPU 版 本 TensorFlow: 
pip install --ignore-installed --upgrade 


https://storage.googleapis.com/TensorFlow/windows/cpu/TensorFlow-1.1.0-cp35-cp35m-win amd64.whl 
GPU 版 本 TensorFlow: 





pip install --ignore-installed --upgrade 
https://storage.googleapis.com/TensorFlow/windows/gpw/TensorFlow_gpu-1.1.0-cp35-cp35m-win_amd64.whl 





如 图 8-8 所 示 ， 使 用 pip 命令 后 ，Python 会 自动 收集 TensorFlow 所 需 依 赖 的 所 有 库 文件 ， 
并 依次 下 载 。 需 要 注意 的 是 ， 有 时 因为 网 络 拥堵 原因 可 能 会 造成 某 些 库 下 载 失败 ， 只 需要 多 
次 使 用 pip 命令 安装 即 可 。 
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E 口 x 





[LE 
(e:\py3) E:\>pip install —ignore-installed 一 upgrade https://storage. googleapis. com/tensorflow/window 
s/gpu/tensorflow gpu-l.l.0-cp35-cp35m-win amd64. whl 

Collecting tensorflow-gpu--l. 1.0 from https://storage. googleapis. com/tensorflow/windows/gpu/tensorflow 


| gpu-1. 1. 0-cp35-cp35m-win_amd64. whl 
Downloading https://storage. googleapis. com/tensorflow/windows/gpu/tensorflow_gpu-l. 1. 0-cp35-cp35m-wi 


п апа64. whl 
виш шшишшшшшишишишиш 606725: 


100% ШШШ 

(Collecting wheel>=0.26 (from tensorflow-gp 1.0) 
Using cached wheel-0. 29. 0-py2. py3-none-any. whl 
(Collecting six>=1.10.0 (from tensorflow-gpi .1.0) 
Using cached six-1. 10. 0-py2. py3-none-any. whl 
Collecting protobuf?-3.2.0 (from tensorflow-gpu--l. 1. 0) 
Using cached protobuf-3. 2. 0-py2. py3-none-any. whl 
(Collecting numpy?-1. 11.0 (from tensorflow-gpu: 1.0) 
Using cached numpy-l. 12. 1-cp35-none-win_amd64. whl 
penas werkzeug>=0. 11.10 (from tensorflow-gpu==1. 1.0) 


























Using cached Werkzeug-0. 12. 1-py2. py3-none-any. whl 
2. 0->tensorflow-gpu==1. 1. 0) 





(Collecting setuptools (from protobuf>=: 
Using cached setuptools-35. 0. 2-py2. py3-none-any. whl 
Collecting appdirs>=1.4.0 (from setuptools-> > 
Using cached аррӣігз-1. 4. 3-py2. py3-none-any. 
Collecting packaging. protobuf>=3. 2. 0->tensorflow-gpu==1. 1.0) 
Using cached packaging-16. 8-py2. py3-none-any. whl 
Collecting pyparsing (from packaging: . 8->setuptools—>protobuf>=3. 2. 0->tensorflow-gpu==1. 1. 0) 
Using cached pyparsing-2. 2. 0-ру2. py3-none-any. whl 
Installing collected packages: wheel, six, appdirs, pyparsing, packaging, setuptools, protobuf, numpy, 


werkzeug, tensorflow-gpu 


8-8 安装 TensorFlow 


2. 0->tensorflow-gpu==1. 1. 0) 





















8.2.5 ”验证 安装 


安装 完 TensorFlow Ja, 接 下 来 我 们 验证 TensorFlow 的 安装 是 否 成 功 。 你 可 以 启动 Python 
使 用 如 下 命令 进行 检验 。 


>>> import TensorFlow as tf 
>>> hello = tf.constant( 'Hello, TensorFlow! ) 
>>> sess = tf.Session( ) 


>>> print( sess.run( hello ) ) 


如 图 8-9 所 示 ， 若 命令 行 成 功 输出 : b'Hello,TensorFlow!'， 则 表明 TensorFlow 安装 成 功 。 





>>> import tensorflow as tf F 
>>> hello = tf. constant ( Hello, TensorFlow!') 


>> sess = tf. Session() 
c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runt 


lime\gpu\gpu_device. cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce 
TX 960M, pci bus id: 0000:01:00. 0) 

>>> print (sess. run(hello)) 

' Hello, TensorFlow!' 

>>> print (sess. run(hello)) 

' Hello, TensorFlow!' 





图 8-9 检验 TensorFlow 安装 


° GPU 验证 
如 果 启 动 TensorFlow 时 ， 以 下 CUDA 库 被 成 功 启动 ， 则 说 明 CUDA 配置 成 功 。 如 果 某 
些 CUDA 库 无 法 启动 ， 则 应 在 环境 变量 中 配置 相关 的 路 径 。 
successfully opened CUDA library cublas64 80.dll locally 
successfully opened CUDA library cudnn64 5.dll locally 
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successfully opened CUDA library cufft64_80.dll locally 
successfully opened CUDA library nvcuda.dll locally 
successfully opened CUDA library curand64 80.dll locally 


以 上 便 是 安装 TensorFlow 的 整个 过 程 ,经 过 烦琐 的 安装 后 , 接 下 来 我 们 就 进入 TensorFlow 
的 编程 世界 。 


8.3 TensorFlow 基础 


本 节 的 主要 内 容 截 取 自 TensorFlow 官方 网 站 的 Getting Started With TensorFlow 教程 。 读 
者 可 以 使 用 以 下 网 址 来 查看 原始 的 英文 教程 《需要 使 用 VPN) : 

https://www.TensorFlow.org/get_started/get_started 。 

本 教程 用 于 指导 TensorFlow 的 入 门 编程 。 在 开启 练习 前 ， 请 先 确定 自己 已 经 安装 了 
TensorFlow。 作 为 本 教程 的 前 置 条 件 ， 需 要 先 了 解 以 下 内 容 。 


° ”如 何 使 用 Python 编程 ; 

° ”至 少 了 解 少 量 的 数组 知识 ; 

° ”理想 情况 下 应 该 知道 机 器 学 习 。 当然 如果 你 对 机 器 学 习 了 解 较 少 , 甚至 毫 不 知情 ， 
你 仍然 可 以 使 用 该 教材 。 


TensorFlow 提供 了 多 种 API 接 口 。 其 中 处 于 底层 的 API 是 TensorFlow Core API， 该 接口 
提供 了 完整 的 编程 控制 ， 对 于 机 器 学 习 研 究 者 以 及 需要 精确 控制 自己 模型 的 研发 人 员 而 言 ， 
可 以 使 用 此 API 进行 科学 研究 。 高层 的 API 构建 在 TensorFlow 核心 接口 之 上 ， 其 相对 核心 接 
口 而 言 更 简单 ， 也 更 容易 学 习 使 用 。 高 层 API 使 可 重复 性 任务 更 容易 实现 ， 并 且 对 于 不 同 的 
用 户 也 有 更 多 的 一 致 性 。 比 如 tf.contrib.learn 可 以 帮助 用 户 管理 数据 集 、 学 习 器 、 训 练 和 执行 
等 内 容 。 但 需要 注意 的 是 ， 一 些 高 层 API 模块 仍然 在 开发 中 ， 其 命名 有 可 能 会 被 更 迭 。 本 教 
程 将 从 TensorFlow 核心 API 开始 讲 起 ， 之 后 我 们 会 使 用 tf.contrib.learn 实现 相同 的 模型 。 接 
下 来 打开 “第 8 章 -TensorFlow 初步 .ipynb” 文 件 ， 开 始 本 节 的 练习 。 





8.3.1 Tensor 


Tensor (8) 是 TensorFlow 的 核心 数据 单元 。 一 个 tensor 可 以 简单 地 理解 为 任意 维 的 
数组 ， 其 中 Tensor 的 秩 (rank) 表 示 其 维度 数量 。tensor Æ 0 维 时 表示 标量 ， 也 就 是 一 个 实数 ; 
- 维 时 表示 向 量 ， 二 维 时 表示 矩阵， 而 三 维 以 上 就 表示 张 量 。 如 下 列 代 码 所 示 。 

3# 秩 为 0 的 tensor; 其 表示 形状 为 [] 的 标量 。 

[1. ,2., 3.] # 秩 为 1 的 tensor; 其 表示 形状 为 [ 3 ] 的 向 量 。 

[ [1., 2., 3.], [4., 5., 6.] ] # 秩 为 2 的 tensor; 其 表示 形状 为 [ 2, 3 ] 的 矩阵 。 
[[[1.,2.,3.]],[[7.,8.,9.]]]# 秩 为 3 的 tensor: 其 表示 形状 为 [2, 1,3 ] 的 张 量 。 
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8.3.2 TensorFlow 核心 АРІ 教程 


° A TensorFlow 


在 TensorFlow 规范 的 编程 习惯 中 , 使 用 以 下 语句 导入 TensorFlow E, 在 默认 情况 下 我 们 
都 会 使 用 给 表 示 TensorFlow. 


import TensorFlow as tf 
。 计算 图 
TensorFlow 核心 程序 由 两 块 单独 的 部 分 构成 。 
Т. 构建 计算 图 ; 
2. 运行 计算 图 。 


-个 计算 图 是 一 系列 排列 好 的 TensorFlow 图 节点 操作 。 每 个 节点 使 用 0 或 多 个 Tensor 
作为 输入 ， 并 且 生 成 一 个 Tensor 作为 输出 。 在 TensorFlow 中 ， 常 数 是 一 种 特定 的 节点 ， 其 不 
需要 输入 ， 而 其 输出 是 本 身 内 部 存储 的 值 。 

接 下 来 我 们 构建 一 个 简单 的 计算 图 ， 如 下 所 示 ， 我 们 创建 两 个 浮 点 数 nodel 和 node2。 

















nodel = tf.constant(3.0, tffloat32) 
node2 = tf.constant(4.0) # 隐 式 地 生成 由 float32 


print(nodel, node2) 
Tensor( "Const:0", shape = ( ), dtype = float32 ) 





Tensor( "Const. 1:0", shape = ( ), dtype = float32 ) 


请 注意 ， 节 点 打印 的 结果 可 能 不 是 你 期 望 的 输出 值 3.0 及 4.0。 因 为 这 些 节点 上 只 有 在 被 计 
算 时 才 会 分 别 生成 3.0 以 及 4.0。 为 了 计算 这 些 节 点 ， 我 们 必须 通过 Session (会 话 ) 运行 计算 
图 。Session 封装 了 TensorFlow 运行 时 的 控制 和 状态 操作 ， 计 算 图 只 能 通过 Session 运行 。 如 下 
列 代码 所 示 , 我 们 创建 了 一 个 Session MR, 然后 调用 其 run 方法 去 运行 计算 图 nodel 和 node2。 


sess = tf.Session( ) 


print( sess.run( [ nodel, node2 ] ) ) 
输出 结果 : [3.0, 4.0] 


我 们 还 可 以 通过 TensorFlow 操作 (操作 也 是 节点 ) 来 组 合 节点 从 而 构建 更 复杂 的 计算 图 。 
如 下 列 代码 所 示 ， 我 们 可 以 通过 将 两 个 节点 使 用 add 操作 来 生成 新 的 计算 图 。 
node3 = tf.add( nodel, node2 ) 

print( "node3: ", node3 ) 








print( "sess.run( node3 ): ", sess.run( node3 ) ) 





输出 结果 : node3: Tensor( "Add:0", shape = ( ), dtype = float32 ) 
sess.run( node3 ) 7.0 











296 


#88 TensorFlow 快速 入 门 
== 





TensorFlow 还 提供 了 TensorBoard 工具 可 视 化 计算 图 。 如 图 8-10 所 示 为 上 述 的 加 法 计算 
图 可 视 化 结果 。 
Add 
const3 
const4 


> 


8-10 常数 节点 加 法 操作 计算 图 


就 目前 而 言 ， 由 于 其 只 能 生成 常数 结果 ， 这 些 计 算 图 可 能 还 引发 不 了 你 的 兴趣 。 为 了 输 
出 可 变 结果 ， 计 算 图 还 可 以 通过 占 位 符 (placeholder) 进行 参数 化 ， 从 而 接收 外 部 输入 。 如 下 
列 代码 所 示 ， 一 个 占 位 符 也 可 以 看 作 是 对 某 类 型 变量 的 声明 。 





а = tf.placeholder( tf.float32 ) 
b = tf.placeholder( tf.float32 ) 
adder node=a+b # “+” 是 ttadd(a,b) 的 简洁 表达 。 





这 三 行 代码 有 点 类 似 于 一 个 函数 ， 我 们 首先 定义 两 个 输入 参数 (a 和 b) ， 然 后 使 用 它们 
进行 运算 。 如 下 列 代码 所 示 ， 我 们 可 以 将 Tensor 作为 输入 数据 ， 给 这 些 占 位 符 提 供 具体 的 值 
进行 计算 。 
print( sess.run( adder node, { а: 3, b: 4.5 } ) ) 
print( sess.run( adder node, { a: [ 1, 3], b: [2.4] 1 )) 





在 TensorBoard 中 ， 该 计算 图 如 图 8-11 所 示 。 


adder_no... 


图 8-11 变量 节点 加 法 操作 计算 图 


同样 地 ， 我 们 还 可 以 在 该 计算 图 中 添加 额外 的 操作 ， 生 成 更 复杂 的 计算 图 。 我 们 可 以 在 
上 述 的 加 法 操作 中 再 添加 乘法 操作 ， 如 下 列 代码 所 示 。 


add and triple = adder_node * 3. 





print( sess.run( add and triple, { a: 3, b:4.5 } ) ) 


输出 结果 : 22.5 





而 现在 的 计算 图 就 变 成 了 图 8-12 所 示 。 
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add and... 


yOcG 2 


adder no... 


b a 


图 8-12 复合 运算 计算 图 
就 如 前 面 的 内 容 所 示 ， 在 机 器 学 习 中 我 们 通常 想 要 一 个 学 习 模 型 能 够 任意 地 获取 输入 数 
据 ， 然 后 训练 模型 。 为 了 满足 此 需求 ， 我 们 就 需要 一 个 可 更 改 的 计算 图 ， 使 其 在 相同 的 输入 
时 拥有 新 的 输出 结果 。 而 TensorFlow 中 的 Variavles (变量 ) 就 允许 我 们 在 计算 图 中 添加 可 训 
练 参 数 。 如 下 列 代码 所 示 ， 便 是 在 TensorFlow 中 变量 的 构造 方式 。 


W = tf.Variable( [ .3 ], tf.float32 ) 
b=tf.Variable( [ -.3 ], tf.float32 ) 


x = tf.placeholder( tf.float32 ) 


linear model = W * x +b 





在 TensorFlow 中 ， 常 数 是 通过 调用 tf.constant 函数 进行 初始 化 的 ， 一 旦 初始 化 后 它们 的 
值 就 不 会 改变 ， 但 是 变量 在 调用 tf. Variable 函数 后 并 没有 被 初始 化 。 想 要 在 TensorFlow 程序 
中 初始 化 所 有 变量 ， 如 下 列 代码 所 示 ， 必 须 显 式 地 调用 一 个 特殊 的 函数 。 


init = tf.global_variables_initializer( ) 


sess.run( init ) 





需要 注意 的 是 ，init 函数 用 于 处 理 TensorFlow 子 图 中 所 有 全 局 变量 的 初始 化 工作 。 在 我 
们 调用 sess.run 函数 之 前 ,变量 都 不 会 被 初始 化 。 如 下 列 代码 所 示 ， 由 于 x 是 一 个 占 位 符 ， 当 
执行 linear model 函数 时 ， 我 们 可 以 同时 地 使 用 一 系列 的 x 值 作为 输入 。 

















print( sess.run( linear model, í x:[ 1,2, 3,4] } )) 





输出 结果 : [0. 0.30000001 0.60000002 0.90000004 ] 





我 们 已 经 创建 了 一 个 线性 模型 ， 但 我 们 并 不 知道 该 模型 的 性 能 如 何 。 想 要 使 用 训练 数据 
训练 该 模型 ， 我 们 需要 y 占 位 符 作 为 类 标 ， 并 且 还 需要 一 个 损失 函数 。 我 们 将 使 用 标准 的 均 
方 误差 函数 作为 该 线性 回归 的 损失 模型 ， 其 仅仅 是 当前 模型 与 训练 数据 误差 的 平方 青 求 和 。 
如 下 列 代码 所 示 ，linear_model - y 创建 了 一 个 向 量 ， 其 每 一 元 素 对 应 着 预测 值 与 真实 值 的 差 
值 。 我 们 通过 调用 tf.square 函数 对 该 差 值 进行 平方 运算 ， 然 后 使 用 tf.reduce ѕит 函数 将 所 有 
平方 误差 的 值 进行 累加 ， 形 成 一 个 标量 损失 值 。 
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y = tf.placeholder( tf.float32 ) 


squared deltas = tf.square( linear model — y ) 

loss = tf.reduce_sum( squared deltas ) 

print( sess.run( loss, í x:[ 1, 2,3, 4 ], y:[ 0,-1,-2,-3]})) 
| 输出 结果 : | 23.66 








-个 变量 可 以 在 初始 化 时 设 定 特定 的 值 , 也 可 以 通过 tfassign 函数 进行 赋值 。 例如 ，W=-1 
以 及 b-1 是 本 模型 的 最 佳 参数 。 如 下 列 代码 所 示 ， 我 们 可 以 手动 地 使 用 thassign 函数 将 w 和 
b 的 值 重 新 修改 为 -1 和 1， 并 将 损失 值 降 到 0。 








fixW = tf.assign( W, [-1.]) 

fixb = tf.assign( b, [1.]) 

sess.run( [ fix W, fixb ] ) 

print( sess.run( loss, ( x:[ 1, 2, 3, 4], y:[ 0, -1, -2, -3 ] } )) 





在 本 例子 中 ， 我 们 站 在 了 上 帝 视角 事先 知道 了 W 和 b 的 最 佳 值 , 但 并 没有 使 用 学 习 的 方 
式 自动 地 去 寻找 最 佳 模型 。 接 下 来 我 们 将 正式 地 使 用 一 个 简单 的 线性 模型 演示 在 TensorFlow 
中 如 何 进行 机 器 学 习 。 


8.3.3 tf.train API 


TensorFlow 提供 了 优化 器 (optimizers) 去 逐步 地 最 小 化 损失 函数 。 而 最 简单 的 优化 器 是 
梯度 下 降 〈gradient descent) 优化 器 ， 如 果 对 此 方法 有 些 陌生 ， 该 原理 在 本 书 的 第 2 章 可 以 找 
到 。 梯 度 下 降 法 是 通过 计算 损失 函数 的 梯度 来 修改 权重 变量 的 值 ， 但 通常 手动 地 计算 梯度 是 
烦琐 而 易 错 的 。 幸 运 的 是 ，TensorFlow 的 一 大 优势 就 是 具备 自动 求 导 功能 ， 该 方法 被 封装 进 
T tfgradients 中 。 为 了 简化 ，TensorFlow 中 的 优化 器 通常 隐 式 地 完成 了 这 些 内 容 。 





optimizer = tf.train.GradientDescentOptimizer( 0.01 ) 


train = optimizer.minimize( loss ) 
sess.run( init) # 将 上 述 的 权重 变量 重新 初始 化 。 
foriin range( 1000 ): 
sess.run( train, í x:[ 1, 2, 3, 4 ], y:[ 0, -1, -2, -3 ] } ) 
print( sess.run( [ W, b ] ) ) 
| 输出 结果 : | [ array( [ -0.9999969 ], dtype = float32 ), array( [ 0.99999082 ], dtype = float32 ) ] 








就 是 那么 简单 ， 只 需要 几 行 代码 就 完成 了 简单 的 线性 回归 任务 。 当 然 ， 对 于 复杂 一 些 的 
模型 ， 还 需要 定制 输送 数据 到 模型 中 的 方法 。 因 此 TensorFlow 还 提供 了 高 层 抽象 的 API 用 于 
构造 相同 的 模式 、 结 构 、 功 能 等 内 容 。 接 下 来 我 们 将 学 习 如 何 使 用 这 些 高 层 抽 象 的 API。 


° ”完整 的 线性 回归 模型 
如 下 列 代码 所 示 ， 是 完整 的 可 训练 线性 回归 模型 。 
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import numpy as np 
import TensorFlow as tf 
# 模型 参数 。 
W = tf.Variable( [ .3 ], tf.float32 ) 
b=tf.Variable( [ -.3 ], tf.float32 ) 
# 模型 的 输入 与 输出 。 
x = tf.placeholder( tf.float32 ) 
linear model = W *x +b 
y = tf.placeholder( tf.float32 ) 
# 损失 函数 。 
loss = tf.reduce_sum( tf.square( linear model — y ) )# 平方 和 累加 。 
# 优化 器 。 
optimizer = tf.train.GradientDescentOptimizer( 0.01 ) 
train = optimizer.minimize( loss ) 
# 训练 数据 。 
x_train=[ 1,2,3,4] 
y_train = [ 0, -1, -2, -3 ] 
# 训练 过 程 。 
init = tf.global_variables_initializer( ) 
sess = tf.Session( ) 
sess.run( init )# 初始 化 变量 。 
for i in range( 1000 ): 
sess.run( train, { x: x train, y: y train } ) 
# 计算 训练 精度 。 
curr_W, curr_b, curr_loss = sess.run( [ W, b, loss ], { x: x train, y: y train } ) 
print( "W: %s b: %s loss: Vos" % ( curr_W, curr_b, curr loss ) ) 
输出 结果 : W: [ -0.9999969 ] b: [ 0.99999082 ] loss: 5.69997e-11 











如 图 8-13 所 示 ， 在 TensorBoard 中 ， 我 们 可 以 看 到 完整 的 计算 图 模型 。 
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8.3.4 tf.contrib.learn 


tf.contrib.learn 是 高 层 的 TensorFlow 库 ， 其 将 机 器 学 习 过 程 简 化 为 以 下 几 步 。 


训练 阶段 执行 
评估 阶段 执行 
数据 集 管理 
数据 供给 管理 





接 下 来 ， 我 们 将 展示 如 何 使 用 tf. contrib.learn 接口 简化 线性 回 


import TensorFlow as tf 


# NumPy 会 经 常用 于 对 数据 进行 载 入 、 操 作 与 处 理 。 


import numpy as np 


# 特征 声明 。 


归程 序 。 
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# TensorFlow 提供 了 许多 复杂 有 用 的 特征 类 型 ， 在 本 例 中 我 们 只 使 用 一 维 的 实 值 特征 。 

features = [ tf.contrib.layers.real valued column( "x", dimension = 1 ) ] 

#estimator САИ) 用 于 训练 和 评估 。TensorFlow 已 经 预定 义 了 许多 类 型 的 估计 器 ， 

# 例如 : 线性 回归 、 逻 辑 回 归 、 线 性 分 类 器 、 逻 辑 分 类 器 及 大 量 的 神经 网 络 分 类 器 

# 和 回归 器 。 下 列 代 码 是 线性 回归 估计 器 的 示例 。 

estimator = tf.contrib.learn.LinearRegressor( feature_columns = features ) 

# TensorFlow 还 提供 许多 方法 用 于 读 取 和 设置 数据 集 。 

# 我 们 使 用 numpy_input fn 函数 ， 并 告诉 函数 有 多 少 批 次 数据 

# 进行 训练 ( num_epochs )， 以 及 每 批 数据 采样 多 少 条 ( batch_size )。 

x= np.array( [ 1., 2.,3.,4.]) 

у = nparray( [ 0., -1., -2., -3. ] ) 

input fn = tf.contrib.leam.io.numpy_input_fn( í "x": x }, y, batch size = 4, 
num_epochs = 1000 ) 

# 我 们 通过 fit 方法 调用 1000 次 训练 步 传送 训练 数据 进行 训练 。 

estimator.fit( input. fn = input fn, steps = 1000 ) 

# 我 们 使 用 evaluate 方法 评估 我 们 训练 的 模型 如 何 。 在 真实 的 例子 中 ， 

# 我 们 需要 将 数据 分 成 验证 数据 及 测试 数据 以 防止 过 拟 合 。 

estimator.evaluate( input_fn = input_fn ) 

输出 结果 : 

INFO:TensorFlow:Create CheckpointSaverHook. 

INFO:TensorFlow:Saving checkpoints for | into 

C:\Users\dufresne\A ppData\Local\Temp\tmpi23p9ku4\model.ckpt. 

INFO:TensorF low: loss = 2.0, step = 1 

INFO:TensorFlow:global_step/sec: 448.445 

INFO:TensorF low: loss = 0.0389375, step = 101 

INFO:TensorFlow:global step/sec: 596.601 

INFO:TensorFlow:loss — 0.0082407, step — 201 

INFO:TensorFlow:global step/sec: 623.541 

INFO:TensorFlow:loss = 0.000423451, step = 301 

INFO:TensorFlow:global step/sec: 636.525 

INFO:TensorFlow:loss — 9.56458e-05, step — 401 

INFO:TensorFlow:global step/sec: 665.327 

INFO:TensorFlow:loss — 8.59048e-06, step — 501 

INFO:TensorFlow:global step/sec: 651.423 

INFO:TensorFlow:loss — 5.93324e-07, step — 601 

INFO:TensorFlow:global step/sec: 667.051 

INFO:TensorFlow:loss — 1.89528e-07, step — 701 

INFO:TensorFlow:global step/sec: 664.496 

INFO:TensorFlow:loss — 1.45992e-08, step — 801 
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INFO:TensorFlow:global step/sec: 694.997 

INFO:TensorFlow:loss — 1.65755e-10, step — 901 

INFO:TensorFlow:Saving checkpoints for 1000 into 

C3 Users dufresneVAppData Local Temp tmpi23p9ku4 model.ckpt. 

INFO:TensorFlow:Loss for final step: 4.13461e-10. 

INFO:TensorFlow:Starting evaluation at 2017-05-04-03:16:40 

INFO:TensorFlow:Finished evaluation at 2017-05-04-03:16:41 

INFO:TensorFlow:Saving dict for global step 1000: global step — 1000, loss — 1.77339e-10 
WARNING:TensorFlow:Skipping summary for global step, must be a float or np.float32. 
{'global_step': 1000, 'loss': 1.7733889e-10} 











° ARARA 


tf.contrib.learn 除了 拥有 预定 义 的 模型 外 ， 还 可 以 自 定义 模型 。 假 设 我 们 想 要 创建 一 个 
TensorFlow 还 没 实现 的 自 定义 模型 ， 可 能 仍然 需要 保留 tf.contrib.learn 中 诸如 数据 集 、 数 据 供 
给 、 训 练 等 抽象 方法 。 接 下 来 ， 我 们 将 展示 如 何 通过 低层 的 TensorFlow 接口 实现 自 定义 的 线 
性 回归 器 LinearRegressor。 

想 要 通过 tf.contrib.learn 接口 自 定义 学 习 模型 ， 我 们 需要 使 用 到 tf.contrib.learn.Estimator 
类 作为 自 定 义 类 的 父 类 ， 因 此 tfcontriblearn.LinearRegressor 需要 继承 于 
tf.contrib.learn.Estimator 类 。 但 和 Estimator 的 其 他 子 类 不 同 ， 我 们 只 是 简单 地 提供 model_fn 
给 Estimator， 并 告诉 tf.contrib.learn 评估 预测 、 训 练 次 数 、 损 失 等 方法 即 可 。 











import numpy as np 


import TensorFlow as tf 

def model( features, labels, mode ) : 

# 构建 线性 模型 。 

W = tf.get_variable("W", [ 1 ], dtype = tf-float64 ) 

b= tf.get_variable( "b", [ 1 ], dtype = tf.float64 ) 

у = W * features[ 'x' ] +b 

# 损失 子 图 。 

loss = tf.reduce sum tf.square( y – labels ) ) 

# 训练 子 图 。 

global step = tf.train.get global step( ) 

optimizer = tf.train.GradientDescentOptimizer( 0.01 ) 

train = tf.group(optimizer.minimize( loss ), tf.assign_add( global step, 1 ) ) 
# ModelFnOps 用 于 连接 我 们 构建 的 方法 子 图 。 

return tf.contrib.learn. ModelFnOps( mode = mode, predictions = y, 
loss = loss, train op = train ) 

estimator = tf.contrib.learn.Estimator( model fn = model ) 

# 定义 数据 集 。 

x = nparray( [ 1.,2.,3.,4.]) 
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y = nparray( [ 0., -1., -2., -3.]) 


input fn = tf.contrib.learn.io.numpy input fn( í "x": x }, y, 4, num epochs = 1000 ) 





# 训练 模型 。 

estimator.fit( input fn = input fn, steps = 1000 ) 

# 评估 模型 。 

print( estimator.evaluate( input fn = input fn, steps = 10 ) ) 
输出 结果 : 





WARNING:TensorFlow:Using temporary folder as model directory: 

C:\Users\dufresne\A ppData\Local\Temp\tmppgx3imSk 

INFO:TensorFlow: Using default config. 

INFO:TensorFlow: Using config: {'_save_summary_steps': 100,' save checkpoints steps': None, 

' keep checkpoint every n hours': 10000, '_keep_checkpoint_max': 5,'_tf_config': gpu options í 

per process gpu memory fraction: 1 

} 

,'_cluster_spec': <TensorFlow.python.training.server_lib.ClusterSpec object at 0x0000029060DE65F8>, 


' evaluation master': ",' tf random seed': None," is chief: True, '_task_id': 0,'_save_checkpoints_secs': 600, 
' num ps replicas: 0,' master': ",' task type': None,' environment" 'local'j 
INFO:TensorFlow:Create CheckpointSaverHook. 
INFO:TensorFlow:Saving checkpoints for 1 into 
C:\Users\dufresne\A ppData\Local\Temp\tmppgx3im5k\model.ckpt. 
INFO:TensorFlow:loss = 5.20388559268, step = 1 
INFO:TensorFlow:global_step/sec: 834.604 
INFO:TensorFlow:loss = 1.58416664772, step = 101 
INFO:TensorFlow:global_step/sec: 906.577 
INFO:TensorF low: loss = 0.0310900932304, step = 201 
INFO:TensorFlow:global step/sec: 1041.88 

INFO:TensorFlow:loss = 0.00538012149811, step = 301 
INFO:TensorFlow:global step/sec: 991.046 
INFO:TensorFlow:loss — 6.32636899449e-08, step — 401 
INFO:TensorFlow:global step/sec: 1089.81 

INFO:TensorFlow:loss = 3.69894665652e-05, step = 501 
INFO:TensorFlow:global step/sec: 1060.97 
INFO:TensorFlow:loss — 3.17184819319e-06, step — 601 
INFO:TensorFlow:global step/sec: 1016.39 
INFO:TensorFlow:loss — 2.54515951329e-07, step — 701 
INFO:TensorFlow:global step/sec: 1101.29 
INFO:TensorFlow:loss = 1.63026604358e-08, step = 801 
INFO:TensorFlow:global step/sec: 1016.04 
INFO:TensorFlow:loss — 2.20882298833e-09, step — 901 
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INFO:TensorFlow:Saving checkpoints for 1000 into 

C:\Users\dufresne\A ppData\Local\Temp\tmppgx3im5k\model.ckpt. 
INFO:TensorFlow:Loss for final step: 1.49740992028e-10. 

INFO:TensorFlow:Starting evaluation at 2017-05-04-06:46:17 
INFO:TensorFlow:Evaluation [1/10] 

INFO:TensorFlow:Evaluation [2/10] 

INFO:TensorFlow:Evaluation [3/10] 

INFO:TensorFlow:Evaluation [4/10] 

INFO:TensorFlow:Evaluation [5/10] 

INFO:TensorFlow:Evaluation [6/10] 

INFO:TensorFlow:Evaluation [7/10] 

INFO:TensorFlow:Evaluation [8/10] 

INFO:TensorFlow:Evaluation [9/10] 

INFO:TensorFlow:Evaluation [10/10] 

INFO:TensorFlow:Finished evaluation at 2017-05-04-06:46:17 

INFO:TensorFlow:Saving dict for global step 1000: global step = 1000, loss = 2.2191 1e-10 
WARNING:TensorFlow:Skipping summary for global step, must be a float or np.float32. 
{'loss': 2.2191052e-10, 'global step': 1000} 








8.4 TensorFlow 构造 CNN 


在 本 小 节 的 编程 练习 中 , 我 们 将 使 用 TensorFlow 构建 Softmax 分 类 器 以 及 卷 积 神经 网 络 。 
接 下 来 ， 你 可 以 使 用 “第 8 章 -TensorFlow 构造 CNN 初步 .ipynb” 文 件 完成 本 节 练 习 。 本 节 中 
我 们 将 逐步 完成 以 下 操作 。 
. 如 何 使 用 TensorFlow 创建 Softmax 分 类 器 识别 MNIST 数字 图 形 数据 集 ; 
. 如 何 使 用 TensorFlow 训练 模型 ; 
. 如 何 使 用 TensorFlow 测试 模型 精度 ; 
. 如 何 使 用 TensorFlow 创建 卷 积 神经 网 络 并 训练 模型 。 


wn 


8.4.1 构建 Softmax 模型 


° A MNIST 数据 集 
如 下 列 代码 所 示 ， 我 们 可 以 使 用 TensorFlow 自动 地 下 载 和 读 取 MNIST 数据 集 。 





from TensorFlow.examples.tutorials.mnist import input_data 

mnist = input data.read data sets( 'MNIST_data’, one hot = True ) 

输出 结果 : Extracting MNIST_data\train-images-idx3-ubyte.gz 
Extracting MNIST data'train-labels-idx1-ubyte.gz 
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Extracting MNIST_data\t10k-images-idx3-ubyte.gz 


Extracting MNIST data l0k-labels-idx1-ubyte.gz 





MNIST 是 一 个 使 用 NumPy 数组 存储 训练 、 验 证 、 测 试 数据 的 轻 量 级 类 ， 它 还 提供 了 批 
量 采 样 数据 等 方法 ， 将 会 在 接 下 来 的 内 容 中 使 用 。 


° ”启动 TensorFlow InteractiveSession 


TensorFlow 使 用 高 效 的 C++ 代码 在 后 端 进行 计算 , 而 Session 便 是 我 们 连接 到 后 端的 桥梁 。 
在 TensorFlow 中 ， 通 常 首先 会 创建 计算 图 ， 然 后 再 使 用 Session 启动 计算 图 。 但 和 上 小 节 内 
容 不 同 ， 接 下 来 我 们 使 用 InteractiveSession 类 创建 Session， 如 下 列 代码 所 示 ， 该 类 可 以 帮 你 
在 TensorFlow 中 更 灵活 地 构建 代码 。 如 果 不 使 用 InteractiveSession， 屠 需要 在 运行 计算 图 前 
构建 好 完整 的 计算 图 。InteractiveSession 允许 你 交错 地 构建 和 运行 计算 图 ， 这 在 使 用 诸如 
IPython 这 样 的 交互 式 文本 中 显得 非常 的 方便 。 


import TensorFlow as tf 

。 计算 图 

为 了 能 够 在 Python 中 高 效 地 进行 数值 计算 ， 我 们 通常 会 使 用 NumPy EE Python 的 外 部 
使 用 别 的 高 效率 语言 ， 执 行 类 似 矩 阵 乘法 这 样 的 高 负荷 操作 。 但 不 幸 的 是 ， 在 每 一 次 Python 
的 前 后 端 切换 操作 时 都 需要 大 量 的 额外 开销 。 特 别 是 使 用 GPU 或 者 分 布 式 策略 时 ， 这 种 数据 
转换 开销 将 异常 耗 时 。TensorFlow 同样 采用 在 Python 外 部 执行 的 方式 提高 效率 , 但 其 也 通过 
其 他 一 些 措施 来 避免 这 种 额外 的 开销 。 和 在 Python 外 运行 单独 的 高 负荷 操作 不 同 , TensorFlow 
允许 我 们 描述 交互 操作 图 ,然后 将 所 有 操作 完全 运行 于 Python 之 外 。 这 种 方式 和 Theano、Torch 
等 主流 深度 学 习 库 相似 。 因 此 在 TensorFlow 中 ，Python 代码 只 是 负责 构建 外 部 的 计算 图 ， 然 
后 控制 计算 图 运行 。 

在 本 小 节 中 ， 我 们 将 通过 一 层 线性 层 构 建 Softmax 模型 。 然 后 在 下 一 小 节 中 ， 我 们 将 在 
此 基础 上 构建 卷 积 神经 网 络 。 


° 544 
如 下 列 代码 所 示 ， 我 们 从 创建 用 于 输入 图 像 与 输出 类 标的 计算 图 节点 开始 。 


x = tf.placeholder( tf.float32, shape = [ None, 784 ] ) 
y_=tf.placeholder( tf.float32, shape = [ None, 10 ] ) 








x Ally 都 没有 特定 的 值 ， 因 此 我 们 使 用 placeholder ( 占 位 符 ) 进行 声明 。 当 TensorFlow 
运行 计算 图 时 ， 我 们 再 动态 地 输入 数据 。 输 入 图 像 x 是 一 个 二 维 的 浮 点 数 tensor， 我 们 将 其 形 
状 声明 为 [None,784]。 其 中 784 是 一 张 28X28 像素 的 MNIST 图 像 的 数据 维度 ，None 指 的 是 
Tensor 的 第 一 维 ， 也 就 是 对 应 的 图 像 批量 尺寸 可 以 是 任意 值 。 输 出 分 类 y_ 同 样 也 是 一 个 二 维 
Tensor， 其 每 一 行 是 10 维 的 输出 向 量 ， 表 示 MNIST 图 像 对 应 的 0-9 数字 类 标 。 
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HET: 
接 下 来 ， 我 们 使 用 Variable CER) 定义 模型 的 权重 W SRI b, A КИЙ. 


一 个 变量 是 驻 留 在 TensorFlow 计算 图 中 的 值 , 其 可 以 在 计算 时 被 修改 。 在 机 器 学 习 的 语 境 中 ， 
我 们 也 把 变量 称 为 参数 。 


W = tf. Variable( tf.zeros( [ 784, 10 ] ) ) 
b =tf. Variable( tf.zeros( [ 10 ] ) ) 
我 们 通过 调用 tf Variable 函数 将 初始 值 传递 到 每 一 个 参数 中 。 在 该 例子 中 ， 我 们 将 W 和 
b 都 初始 化 为 0， 其 中 W 是 784X10 WERE, m b 是 一 个 10 维 向 量 。 变 量 在 被 使 用 之 前 必须 
使 用 Session 进行 初始 化 ， 这 一 步 相 当 于 将 上 述 初 始 化 的 值 ( tf.zeros ) 传 递 到 变量 中 。 
如 下 列 代码 所 示 ， 我 们 可 以 使 用 tf.global_variables_initializer 函数 一 次 性 地 将 变量 全 部 初 
始 化 。 


sess.run( tf.global_variables_initializer( ) ) 
° 预测 分 类 与 损失 函数 


接 下 来 我 们 开始 Softmax 的 编码 。 如 下 列 代码 所 示 ， 我 们 只 是 用 输入 图 像 x 与 权重 矩阵 
W 进行 乘法 运算 ， 然 后 加 上 偏 置 项 b 即 可 。 


y = tf.matmul( x, W)+b 


Au FALSI. RIEHL RRA VARIOS TE TensorFlow 中 实现 了 ， 
我 们 只 需要 传 入 计算 图 y 与 类 标 节点 y_ 即 可 。 


cross_entropy = tf.reduce_mean( 





tf.nn.softmax cross entropy with logits( labels = y , logits =y )) 


需要 注意 的 是 ，tfnn.softmax_ сгоѕѕ епігору with logits 内 部 使 用 的 是 非 归 一 化 
Cunnormalized) Softmax 模型 进行 预测 并 累加 所 有 分 类 的 得 分 。 


8.4.2 ”使 用 TensorFlow 训练 模型 


现在 我 们 已 经 定义 好 了 训练 模型 以 及 损失 函数 , 接 下 来 我 们 就 使 用 TensorFlow 进行 训练 。 
由 于 TensorFlow 已 经 知道 了 完整 的 计算 图 ， 其 可 以 依据 损失 值 自动 地 求 导 ， 然 后 计算 梯度 修 
改 权重 变量 。TensorFlow 内 置 了 许多 的 优化 算法 , 如 下 列 代码 所 示 , 我 们 将 学 习 率 设置 为 0.5， 
使 用 最 速 梯度 下 降 法 降低 交叉 焙 代 价 损失 。 








train step = tf.train.GradientDescentOptimizer( 0.5 ).minimize( cross entropy ) 





在 上 述 的 一 行 代码 中 ，TensorFlow 的 工作 其 实 是 在 计算 图 中 加 入 新 的 操作 节点 。 这 些 操 
作 包括 了 计算 梯度 、 计算 参 数 更 新 步 数 与 更 新 参数 等 操作 。 其 返回 值 rain_step 也 是 一 个 操作 ， 
当 运 行 计算 图 时 ， 其 将 使 用 梯度 更 新 参数 。 因 此 如 下 列 代码 所 示 ， 训 练 模型 可 以 重复 地 运行 
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train_step 来 不 断 地 更 新 参数 。 





for _ in range( 1000 ): 


batch = mnist.train.next_batch( 100 ) 
train step.run( feed dict = í x: batch[ 0 ], y_: batch[ 1 ] } ) 





每 次 迭代 时 ， 我 们 载 入 100 条 训练 数据 进行 训练 。 当 我 们 运行 train step 操作 时 ， 使 用 
feed dict 将 占 位 符 x 与 y_ 替 换 为 载 入 的 训练 数据 。 需 要 注意 的 是 ， 可 以 在 计算 图 中 使 用 
feed dict 蔡 换 任何 Tensor， 不 仅仅 局 限于 占 位 符 。 


8.4.3 ”使 用 TensorFlow 评估 模型 


在 评估 模型 时 ， 我 们 首先 要 预测 类 标 。tfargmax 是 一 个 非常 有 用 的 函数 ， 其 返回 给 定 
Tensor 某 一 坐标 轴 上 最 高 得 分 的 索引 值 。 例 如 ，ttargmax(y,1) 返 回 的 是 模型 每 一 输入 数据 最 
大 可 能 的 预测 类 标 ， 而 ttargmax(y_,1) 返 回 的 是 真实 的 类 标 。 最 后 我 们 使 用 tf.equal 函数 检查 
预测 类 标 与 真实 类 标的 一 致 性 ， 如 下 列 代码 所 示 。 


correct prediction = tf.equal( tf.argmax( y, 1 ), tfargmax( y_,1 )) 


该 返回 值 correct_prediction 为 一 个 布尔 值 链表 。 想 要 计算 模型 的 精度 ， 我 们 还 需要 计算 
该 链表 的 均值 。 例 如 ，[True,False,True,True] 可 以 用 [1,0,1,1] 表 示 ， 其 精度 为 0.75。 


accuracy = tf.reduce mean( tf.cast( correct prediction, tf.float32 ) ) 


最 后 ， 我 们 使 用 测试 数据 评估 我 们 模型 的 精确 度 ， 该 测试 结果 大 约 在 92%， 如 下 列 代码 
所 示 。 





print( accuracy.eval( feed_dict = { x: mnist.test.images, y_: mnist.test.labels } ) ) 








8.4.4 使 用 TensorFlow 构建 卷 积 神经 网 络 


虽然 我 们 的 Softmax 分 类 器 可 以 在 MNIST 数据 集 上 实现 92% 的 精确 度 , 但 这 性 能 其 实 是 
比较 差 的 。 在 本 小 节 中 ， 我 们 将 使 用 TensorFlow 构建 小 型 的 卷 积 神经 网 络 ， 其 模型 精度 大 约 
在 99.2%. 


° ”权重 初始 化 
首先 ， 我 们 需要 创建 大 量 的 权重 和 偏 置 项 参数 。 如 下 列 代码 所 示 ， 我 们 使 用 标准 差 为 0.1 


的 正 态 分 布 初始 化 权重 。 由 于 我 们 使 用 ReLU 作为 激活 函数 ， 为 了 避免 神经 元 死亡 现象 ， 我 
们 使 用 常数 0.1 初始 化 偏 置 项 。 























def weight_variable( shape ): 
initial = tf.truncated_normal( shape, stddev = 0.1 ) 
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return tf.Variable( initial ) 


def bias_variable( shape ): 
initial = tf.constant( 0.1, shape = shape ) 
return tf.Variable( initial ) 





° ARAL 
TensorFlow 的 卷 积 和 池 化 操作 具有 很 大 的 灵活 性 ， 我 们 可 以 自 定义 卷 积 核 尺 寸 、 跨 步 尺 
寸 和 零 填充 类 型 等 功能 。 如 下 列 代码 所 示 , 在 卷 积 操作 中 我 们 使 用 为 1 的 跨 步 和 same 零 填 充 
进行 卷 积 特征 提取 ; 在 池 化 操作 时 ， 我 们 使 用 2X2 的 最 大 池 化 操作 。 
def conv2d( x, W ): 
return tf.nn.conv2d( x, W, strides = [ 1, 1, 1, 1 ], padding ='SAME' ) 





def max_pool_2x2( x ): 


retum tf.nn.max pool x, ksize = [ 1, 2, 2, 1 ], 
strides = [ 1,2, 2, 1 ], padding = 'SAME' ) 





° ”构造 第 一 层 卷 积 层 


接 下 来 ， 我 们 实现 第 一 层 卷 积 层 。 我 们 使 用 32 个 5X5 的 卷 积 核 作为 第 一 层 卷 积 特征 提 
取 层 ， 因 此 第 一 层 权重 是 形状 为 [5,5,1,32] 的 张 量 ， 该 张 量 的 前 两 维 表 示 卷 积 核 的 大 小 ， 第 三 
维 表示 输入 通道 ， 第 4 维 表示 输出 通道 。 而 卷 积 层 的 偏 置 项 为 32 维 的 向 量 ， 对 应 于 每 一 输出 


W convl = weight variable( [ 5, 5, 1, 32 ] ) 





b convl = bias variable( [ 32 ] ) 


为 了 使 输入 数据 与 卷 积 权重 相对 应 ， 我 们 首先 要 将 输入 数据 x 重 塑 为 一 个 四 维 张 量 。 该 
张 量 的 第 二 维 与 第 三 维 分 别 对 应 图 像 的 宽 和 高 ， 最 后 一 维 对 应 图 像 的 色彩 通道 ， 第 一 维 为 图 
像 的 数量 。 


x image =tf.reshape( x, [ -1, 28, 28, 1 ] ) 


接 下 来 我 们 就 开始 使 用 权重 张 量 W_convl 与 输入 数据 x image 进行 卷 积 ,然后 加 上 偏 置 
项 使 用 ReLU 函数 进行 激活 ， 最 后 再 进行 最 大 池 化 。 如 下 列 代码 所 示 ，max_pool 2x2 函数 将 
图 片 尺 寸 减 少 到 14х14. 





h convl = tf.nn.relu( conv2d( x image, W convl ) + b convl ) 





h pooll = max pool 2x2( h convl ) 
。 第 二 层 卷 积 层 


如 下 列 代 码 所 示 ， 在 第 二 层 的 卷 积 层 中 ， 我 们 使 用 64 个 5X5 的 卷 积 核 进行 特征 提取 ， 
然后 再 使 用 2X2 的 最 大 池 化 。 
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W conv2 = weight variable( [ 5, 5, 32, 64] ) 
b conv2 = bias variable( [ 64] ) 


h conv2 = tf.nn.relu( conv2d( h pooll, № conv2 ) + b conv2 ) 


h pool2 = max pool 2x2( h conv2 ) 





° ”全 连接 层 


现在 ， 我 们 已 经 将 图 片 的 尺寸 降低 到 了 7X7， 接 下 来 我 们 添加 一 层 1024 单元 的 全 连接 
层 进行 特征 提取 。 如 下 列 代码 所 示 ， 全 连接 层 的 权重 为 3136X 1024， 其 中 3136 为 第 二 层 卷 
积 层 的 输出 维度 ，1024 为 全 连接 层 的 输出 维度 。 需 要 注意 的 是 ， 当 卷 积 层 与 全 连接 层 进行 对 
接 时 ， 需 要 将 第 二 层 卷 积 层 输出 的 三 维 ( 宽 ， 高 ， 色 道 ) 的 特征 重 塑 为 一 维 。 





W fcl = weight variable( [ 7 * 7 * 64, 1024] ) 

b fcl —bias variable( [ 1024] ) 

h pool2 flat = tf.reshape( h pool2, [ -1, 7 * 7 * 64]) 

h fcl = t£nn.relu( tf.matmul( h pool2 flat, W_fel ) + b fcl) 





e Dropout 

为 了 降低 过 拟 合 现象 ， 我 们 在 输出 层 之 前 再 加 入 一 层 Dropout 层 。 如 下 列 代码 所 示 ， 我 
们 使 用 占 位 符 表示 Dropout 的 神经 元 激活 概率 ， 这 允许 我 们 可 以 在 训练 阶段 开启 Dropout, m 
在 测试 阶段 关闭 Dropout 功能 。TensorFlow 的 tf.nn.dropout 函数 已 经 实现 了 Droponut 操作 , 我 
们 直接 将 其 当 作 节点 添加 到 计算 图 中 即 可 。 


keep_prob = tf.placeholder( tf.float32 ) 
h fcl drop = tf.nn.dropout( h fcl, keep prob ) 
° 输出 层 


如 下 列 代码 所 示 ， 卷 积 网 络 的 输出 层 和 Softmax 一 样 ， 你 也 可 以 认为 我 们 是 在 全 连接 层 
之 后 添加 了 一 层 Softmax Jz. 





W fc2 = weight variable( [ 1024, 10] ) 
b_fe2 = bias variable( [ 10] ) 
y conv = tf.matmul( h_fel_drop, W_fe2 ) + b fc2 





° 训练 和 评估 卷 积 网 络 


卷 积 网 络 的 训练 和 评估 过 程 与 上 述 的 Softmax 基本 相同 ， 区 别 有 以 下 几 点 。 
1. 我 们 将 最 速 梯 度 下 降 优 化 器 替换 成 了 更 复杂 一 些 的 Adam 优化 器 ; 

2. 我 们 在 feed_dict 中 添加 了 额外 的 keep_prob 参数 控制 Dropout 激活 概率 ; 
3. 在 训练 过 程 中 ， 每 迭代 500 次 我 们 记录 一 次 训练 情况 。 


cross entropy = tfreduce_mean( 


tfnn.softmax_cross_entropy_with_logits( labels = y_, logits = y conv ) ) 
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train step = tf.train.AdamOptimizer( le-4 ).minimize( cross entropy ) 
correct prediction = tf.equal( tf-argmax( у conv, | ), tf.argmax( y_, 1 )) 
accuracy = tf.reduce mean( tf.cast( correct prediction, tf.float32 ) ) 
sess.run( tf.global variables initializer( ) ) 
for i in range( 10000 ): 
batch = mnist.train.next batch( 50 ) 
if i%500 = 0: 
train_accuracy = accuracy.eval( feed_dict = { 
x: batch[ 0], y : batch[ 1 ], keep prob: 1.0 } ) 
print(" 步 数 %d, 训练 精确 度 :。%g"%(i, train accuracy ) ) 
train step.run( feed dict = { х: batch[ 0 ], y : batch[ 1 ], keep prob: 0.5 } ) 
print( "Wid WHE: %g"% accuracy.eval( feed dict = { 
x: mnist.test.images, y : mnist.test.labels, keep prob: 1.0 } ) ) 
输出 结果 : 
步 数 0, 训练 精确 度 : 0.02 
步 数 500, 训练 精确 度 :0.94 
ЖЖ 1000, 训练 精确 度 : 0.96 
步 数 1500, 训练 精确 度 : 0.96 
步 数 2000, 训练 精确 度 1 
步 数 2500, 训练 精确 度 : 0.96 
步 数 3000, 训练 精确 度 : 1 
步 数 3500, 训练 精确 度 : 1 
步 数 4000, 训练 精确 度 : 0.98 
步 数 4500, 训练 精确 度 : 0.98 
步 数 5000, 训练 精确 度 : 1 
步 数 5500, 训练 精确 度 : 1 
步 数 6000, 训练 精确 度 : 1 
HH 6500, 训练 精确 度 : 1 
步 数 7000, 训练 精确 度 : 1 
步 数 7500, 训练 精确 度 : 1 
步 数 8000, 训练 精确 度 : 0.98 
FM 8500, 训练 精 确 度 : 0.98 
FH 9000,， 训 练 精确 度 : 0.98 
步 数 9500, 训练 精确 度 :1 
测试 精确 度 : 0.9922 








8.5 TensorBoard 快速 入 门 


使 用 TensorFlow 训练 大 规模 深度 神经 网 络 常常 就 像 是 使 用 黑 魔法 一 样 ， 我 们 只 知道 最 终 
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的 结果 , 但 却 很 难 理解 内 部 发 生 了 什么 。 为 了 更 加 轻松 地 理解 、 调 试 与 优化 TensorFlow 程序 ， 
TensorFlow 中 加 入 了 一 套 可 视 化 工具 一 一 TensorBoard。 

TensorBoard 可 以 帮助 你 可 视 化 TensorFlow 计算 图 ， 定 量 地 绘制 执行 计算 图 时 各 种 数据 
的 变化 情况 。 如 图 8-14 所 示 ， 为 配置 好 TensorBoard 后 的 交叉 炳 损失 变化 曲线 图 。 








0.000 400.0 800.0 1.200k 1.600k 


TensorBoard EVENTS IMAGES GRAPH HISTOGRAMS 
input new regex o . xentropy o 

Split On Underscores: e | 
X Type: эю | 
1.40 | 
Selected Runs: 1.00 | 
data онын, | 
0.200 | 








图 8-14 TensorBoard 示意 图 


在 本 小 节 中 ， 我 们 将 简单 地 介绍 TensorBoard 的 用 法 。 更 多 的 资源 可 以 访问 如 下 网 址 : 
https://www. TensorFlow.org/code/TensorFlow/tensorboard/README.md (需要 使 用 VPN) , Ж 
查看 更 多 的 TensorBoard 用 法 、 技 巧 与 调试 等 信息 。 


8.5.1 TensorBoard 可 视 化 学 习 


° ”序列 化 数据 


当 运 行 TensorFlow 时 , 可 能 需要 在 运行 过 程 中 动态 地 生成 一 些 汇总 数据 (Summary data), 
而 TensorBoard 就 通过 读 取 这 些 写 入 磁盘 的 TensorFlow 事件 文件 进行 可 视 化 ， 以 下 是 这 些 汇 
总 数据 在 TensorBoard 中 的 生命 周期 。 

首先 ,在 创建 TensorFlow 计算 图 时 ， 可 以 通过 Summary 操作 进行 注释 ， 你 需要 指定 在 哪 
些 节点 中 收集 汇总 数据 。 例 如 ， 假 设 你 训练 一 个 卷 积 神经 网 络 识别 MNIST 数字 ， 你 可 能 想 要 
记录 学 习 率 及 损失 函数 如 何 改 变 。 那 你 就 可 以 通过 在 相应 的 节点 中 附 上 tf:summary.scalar 操作 
去 收集 这 些 信 息 。 然 后 ， 你 再 给 这 些 scalar summary 取 个 类 似 “ 学 习 率 ”“ 损 失 函 数 ” 这 样 
有 意义 的 标签 即 可 。 或 许 你 也 想 要 可 视 化 每 一 层 激活 函数 、 梯 度 、 权 重 的 分 布 情况 ， 那 你 可 
以 通过 在 输出 梯度 与 权重 变量 中 附 上 tf.summary.histogram 操作 分 别 地 收集 这 些 信息 。 

TensorFlow 操作 在 你 运行 它们 之 前 都 不 会 做 任何 事情 , 但 Summary 节点 对 于 计算 图 而 言 
只 是 个 外 部 设备 : 你 当前 运行 的 节点 都 不 依赖 于 它们 。 因 此 ， 想 要 生成 这 些 信息 ， 我 们 需要 
先 运行 这 些 Summary 节点 。 但 手动 管理 这 些 节点 是 非常 烦琐 的 ， 因 此 我 们 可 以 使 用 
tf-summary.merge all 函数 将 这 些 节点 合并 在 一 个 操作 中 生成 所 有 的 汇总 数据 ， 然 后 就 只 需 运 
行 合 并 的 Summary 操作 ， 其 会 将 所 有 的 汇总 数据 生成 序列 化 的 Summary protobuf 对 象 。 最 后 
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我 们 将 Summary protobuf 对 象 传递 到 tf.summary.FileWriter 就 可 以 将 汇总 数据 写 入 到 磁盘 中 。 

FileWriter 在 其 构造 器 中 需要 指定 一 个 logdir (路 径 ) ， 该 路 径 是 非常 重要 的 ， 它 是 所 有 
写 出 事件 的 目录 。FileWriter 的 构造 器 中 也 能 可 选 地 传 入 一 个 计算 图 ,如果 其 接收 到 一 个 计算 
图 对 象 ，TensorBoard 将 根据 Tensor 形状 信息 可 视 化 你 的 计算 图 。 需 要 注意 的 是 ， 如 果 需 要 ， 
可 以 在 运行 每 一 步 计算 图 时 都 记录 一 次 日 志 ， 但 这 可 能 会 有 成 千 上 万 的 训练 信息 ， 这 可 能 已 
经 远 远 多 于 你 需要 的 跟踪 信息 了 。 因 此 ， 最 好 每 隔 n 步 ， 运 行 一 次 合并 Summary 操作 。 

我 们 将 使 用 TensorFlow 源码 自 带 的 教程 例子 来 介绍 TensorBoard 的 使 用 方法 ， 该 文件 存 
放 在 TensorFlow 源码 中 的 “TensorFlow\examples\tutorials\mnist\ mnist_with_summaries.py” 文 





件 下 ， 以 下 是 配置 TensorBoard 的 关键 代码 。 





def variable_summaries( var ): 
"""{Е Tensor 中 附 上 用 于 TensorBoard 可 视 化 的 summaries" 
with tf.name_scope( 'summaries' ): 
mean = tf.reduce mean( var ) 
tf.summary.scalar( 'mean', mean ) 
with tf.name scope( 'stddev' ): 
stddev = tf.sqrt( tf.reduce mean( tf.square( var — mean ) ) ) 
tf.summary.scalar( 'stddev', stddev ) 
tf.summary.scalar( 'max', tf.reduce max( var ) ) 
tf.summary.scalar( 'min', tf.reduce min( var ) ) 


tf.summary.histogram( 'histogram', var ) 


""" 构建 简单 神经 网 络 的 可 复 用 性 代码 。 
完成 矩阵 乘法 ， 加 偏 置 项 ， 使 用 ReLU 非 线性 激活 等 功能 。 


# 在 计算 图 的 一 层 中 添加 命名 作用 域 。 
with tf£:name_scope( layer name ): 
# 该 变量 将 保留 这 层 的 权重 状态 。 
with tf.name_scope( 'weights' ): 
weights = weight_variable( [ input_dim, output_dim ] ) 
variable summaries( weights ) 
with tf.name scope( 'biases' ): 
biases —bias variable( [ output dim ] ) 
variable summaries( biases ) 
with tf.name scope( 'Wx plus b'): 
preactivate = tf.matmul( input tensor, weights ) + biases 
tf.summary.histogram( 'pre activations', preactivate ) 
activations — act( preactivate, name — 'activation' ) 
tfsummary.histogram( 'activations', activations ) 


return activations 





defnn layer( input. tensor, input dim, output dim, layer name, act = tf.nn.relu ): 


并 且 设 置 合理 的 命名 空间 ， 使 得 更 容易 地 阅读 计算 图 及 添加 summary 操作 。"" 
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hidden! = nn layer( x, 784, 500, "layerl' ) 
with tf.name_scope( 'dropout' ): 
keep prob = tf.placeholder( tf.float32 ) 
tf.summary.scalar('dropout keep probability', keep prob ) 
dropped = tf.nn.dropout( hiddenl, keep prob) 
# 如 下 列 代码 所 示 ， 没 有 使 用 Softmax 激活 。 
у =nn_layer( dropped, 500, 10, Чауег2', act = tf.identity ) 
with tf.name scope( 'сгоѕѕ епітору ): 
# EUG RISE SORERGA SX: 
# t£reduce mean( -tf.reduce_sum( y * tf.log( tf.softmax( y ) ). 
# reduction indices =[1])) 
# 可 能 造成 数值 不 稳 的 现象 。 因 此 我 们 在 原来 的 神经 网 络 特征 提取 后 ， 
# 使 用 tf.nn.softmax_cross_entropy_with logits 函数 ， 然 后 再 求 该 批 次 数据 损失 均值 。 
diff = t£nn.softmax cross entropy with logits (targets = y_, logits = y ) 
with tfname_scope( 'total' ): 
cross entropy = tf.reduce mean( diff ) 
tf.summary.scalar( 'сгоѕѕ entropy', cross entropy ) 
with tf.name ѕсоре( 'train' ): 
train step = tf.train.AdamOptimizer( FLAGS.learning rate ).minimize( 
cross entropy ) 
with tf.name scope( 'accuracy' ): 
with tfname_scope( 'correct_prediction' ): 
correct prediction = tf.equal( tf.argmax( y, 1 ), tf.argmax( y , 1) ) 
with tfname_scope( 'accuracy' ): 
accuracy — tf.reduce mean( tf.cast( correct prediction, tf.float32 ) ) 
tf.summary.scalar( 'accuracy', accuracy ) 
# 合并 所 有 summaries 信息 并 将 其 写 到 /tmp/mnist_logs СЧА) 目录。 
merged = tf.summary.merge all( ) 
train. writer = tf.summary.FileWriter( FLAGS.summaries dir + '/train', sess.graph ) 
test. writer = tf.summary.FileWriter( FLAGS.summaries dir + '/test' ) 








tfglobal variables initializer( ).run( ) 





在 初始 化 FileWriters 之 后 ， 我 们 还 必须 添加 summaries 到 FileWriters 中 作为 我 们 的 训练 
和 测试 模型 。 





# 训练 模型 中 同样 写 入 summaries。 


# 每 10 步 ， 度 量 一 次 测试 数据 精度 ， 并 写 入 测试 summaries 中 。 
# 对 于 其 他 的 步 数 ， 在 训练 数据 中 运行 train_step， 并 加 入 到 训练 summaries 中 。 
def feed_dict( train ): 

""" 自 定义 一 个 TensorFlow feed dict 函数 : 将 数据 映射 到 Tensor 占 位 符 中 。""" 
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if train or FLAGS.fake data: 
XS, ys = mnist.train.next_batch( 100, fake data = FLAGS. fake_data ) 
k = FLAGS.dropout 

else: 
XS, ys = mnist.test.images, mnist.test.labels 
k=1.0 

return í x: xs, y_: ys, keep prob: k } 

for i in range( FLAGS.max_steps ): 

ifi% 10==0: # 记录 summaries 以 及 测试 精度 。 
summary, acc = sess.run( [ merged, accuracy ], feed dict = feed dict( False ) ) 
test. writer.add summary( summary, i ) 
print( 'Accuracy at step %s: %s' % ( i, acc ) ) 

else: # 记录 训练 数据 summaries， 然 后 训练 。 
summary, _ = sess.run( [ merged, train step ], feed dict = feed dict( True ) ) 


train writer.add summary( summary, i ) 








° ”启动 TensorBoard 


接 下 来 我 们 启动 TensorBoard 查看 可 视 化 的 日 志文 件 。 首 先 ， 需 要 运行 上 述 的 
mnist_with_summaries.py 文件 ， 生 成 定义 好 的 日 志文 件 。 如 图 8-15 所 示 ， 假 设 TensorFlow 源 
码 存放 在 : “F:\DLAction\TensorFlow-1.0\TensorFlow\examples\tutorials\mnist” ВН F, А 
要 跳 转 到 相应 的 目录 ， 然 后 使 用 Python 运行 mnist_with_summaries.py 文件 即 可 。 





:\DLAction\tensorflow-1. 0\tensorflow\examples\tutorials\mnist>python mnist_with_summaries. py 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows \tensorflow\stream_executor\dso_lo 
der. сс:135] successfully opened CUDA library cublas64 80.dll locally 

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\dso_lo 
der. cc:135] successfully opened CUDA library cudnn64 5.dll locally 

I c: Mtf. jenkins home workspace release-win device Vgpu os windows Mtensorflow|stream executor|dso lo 
der.cc:135] successfully opened CUDA library cufft64 80.dll locally 

I c: Mf. jenkinsWhome workspace release-winVdeviceVgpulos windows Mtensorflow|stream executor|dso lo 
der.cc:135] successfully opened CUDA library nvcuda.dll locally 

I c: Mtf. jenkins home workspace release-winVdeviceVgpulos windows Mtensorflow|stream executor|dso lo 
der.cc:135] successfully opened CUDA library curand64 80.dll locally 

xtracting /tmp/tensorflow/mnist/input data Mtrain-images-idx3-ubyte. gz 

xtracting /tmp/tensorflow/mnist/input_data\train-labels-idxl-ubyte. gz 

xtracting /tmp/tensorflow/mnist/input_data\t10k-images—idx3-ubyte. gz 

xtracting /tmp/tensorflow/mnist/input_data\t10k-labels—idxl-ubyte. gz 





图 8-15 运行 mnist_with_summaries 示意 图 

当 运 行 训 练 完 mnist_with_summaries 后 ， 接 下 来 我 们 启动 TensorBoard， 由 于 我 们 的 

mnist with summaries.py 文件 存放 在 F 盘 ， 默 认 情 况 下 ，TensorFlow 的 日 志文 件 会 被 写 入 到 : 

“F:\tmp\TensorFlow\mnist\logs\mnist_with_summaries” Н 3, WA 8-16 所 示 ， 我 们 可 以 使 用 
以 下 命令 启动 TensorBoard. 


tensorboard --logdi tmp\TensorFlow\mnist\logs\mnist_with_summaries 
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7 \DLAction \tensorflow-1. 0\ tensor? low \examples tutorials mist tensorboard —logdir-F: \tmp\tensort 
ow\mni st\logs\ \mnist. swith. 4 summaries 

c: \tf_jenkins home workspace \release-win\device\gpu\os\windows\tensorflow\stream_executor\dso_lo 
der. сс:135] successfully opened CUDA library cublas64 80. dll locally 


с: \tf_jenkins\home\workspace \release—win device \gpu\os \windows\tensorflow\strean_executor\dso_lo 
7135] successfully opened CUDA library cudmn64 5.dll locally 
¢:\tf_jenkins\home\workspace \release-win \device\gpu\os\windows\tensorflow\stream_executor\dso_lo 
der. cc:135] successfully opened CUDA library cufft64 80.dll locally 

c: \tf_jenkins\home \workspace \release-win device|gpulos \windows\tensorflow\stream_executor\dso_lo 
der. сс:135] successfully opened CUDA library пусида. dll locally 

c: \t£_jenkins \home Workspace \release—win \device\gpu\os windows V tensorflow\stream_executor\dso_lo 
der. cc:135] successfully, opened CUDA library curandó4 80.111 locally 

tarting TensorBoard b'4l' on port 6006 


(You can navigate to http://113. 55. 54. 233:6006) 








图 8-16 TensorBoard 启动 示意 图 


启动 TensorBoard 后 ， 可 以 使 用 该 网 址 : http://113.55.54.233:6006， 通 过 浏览 器 可 视 化 查 
看 TensorBoard。 


85.2 ”计算 图 可 视 化 


如 图 8-17 所 示 ，TensorFlow 计算 图 是 非常 强大 的 ， 但 同时 也 非常 复杂 。 在 本 小 节 中 ， 我 
们 将 详细 地 介绍 TensorBoard 的 计算 图 可 视 化 ， 帮 助 你 理解 和 调试 。 











train | 
| 
c = x 
accuracy ) | ( cross. entropy | 
| | 4 
i i | layer2 | 
/ 
1 | dropout | 
— ( t 
[ input. reshape ) layer i 
Y cxx Na J 
S. m 


input) 
图 8-17 计算 图 可 视 化 
e 名 称 作 用 域 与 节点 
典型 的 TensorFlow 计算 图 可 能 拥有 数 千 节点 ， 即 使 拥有 计算 图 工具 ， 也 无 法 同时 轻松 地 
查看 所 有 节点 。 为 了 简化 ， 变 量 名 称 可 以 被 指定 作用 范围 ， 然 后 使 用 其 在 计算 图 中 定义 层次 


结构 的 节点 。 在 默认 情况 下 ， 只 有 处 在 作用 域 最 顶层 的 节点 会 被 显示 。 如 下 列 代码 所 示 ， 我 
们 使 用 tfname_scope 在 “hidden” 的 名 称 作用 域 (name scope) 下 定义 了 三 个 操作 。 
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import TensorFlow as tf 


with (пате scope( 'hidden' ) as scope: 
a = tf.constant( 5, name = 'alpha' ) 
W = tf. Variable( tf.random uniform( [ 1, 2 ], -1.0, 1.0 ), name = 'weights' ) 
b= tf.Variable( tf.zeros( [ 1 ] ) name = 'biases' ) 





该 操作 形成 了 三 个 作用 域 : hidden/alpha, hidden/weights 和 hidden/biases。 在 默认 情况 下 ， 
这 三 个 节点 会 被 隐藏 进 一 个 标记 为 hidden 的 节点 中 。 但 详细 的 信息 并 没有 丢失 ， 可 以 双击 或 


通过 名 称 作 用 域 组 织 节点 ， 我 们 的 计算 图 将 变 得 非常 清晰 。 当 你 构建 模型 时 ， 注 意 将 各 个 模 
块 使 用 名 称 作 用 域 分 隔 开 。 如 表 8-1 所 示 为 一 个 真实 的 作用 域 例子 ， 表 8-1 中 的 (а) 初始 时 
看 见 的 项 层 名 称 作 用 域 为 pool_1， 单 击 橘 黄色 “+” 按 钮 后 ， 将 显 式 子 作用 域 节点 ， 如 表 8-1 
中 的 Cb) 所 示 ， 为 pool 1 名 称 作用 域 扩展 后 的 视图 。 再 次 单 击 橘 黄色 “-” 按 钮 ， 将 缩 回 原 
来 的 poo_1 视图 。 








表 8-1 名 称 作 用 域 ， 数 据 依赖 ， 控 制 依赖 说 明 








| ool 1 E 
pool1 © P 


(a) 


L1 
(99.1) И наос. 
Equa(1-. 
control dependency 


CheckNumerics. 





(b) 
初始 时 看 见 的 顶层 名 称 作用 域 pool_1。 单 击 | pool 1 名 称 作用 域 扩展 后 的 视图 。 单 击 橘 黄色 “-” 
橘 黄色 “+” 按 钮 后 ， 其 将 为 显 式 子 作 用 域 节 | 按钮 将 缩 回 原来 的 poo_1 视图 。 














TensorFlow 计算 图 有 两 种 连接 方式 : 数据 依赖 (Data Dependencies) 和 控制 依赖 (Control 
Dependencies) 。 数 据 依赖 显示 了 两 个 操作 之 间 的 Tensor 流向 ， 用 实 线 箭头 表示 ， 而 控制 依 
赖 使 用 虚线 表示 。 表 8-1 中 (b) 图 所 示 的 扩展 视图 中 ,除了 CheckNumerics 和 control. dependency 
的 连接 是 虚线 外 ， 其 他 的 连接 都 是 用 实 线 箭 头 连接 的 数据 依赖 。 
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R82 辅助 节点 减少 计算 图 杂乱 现象 


“ий 
(S save global_s. 
Equal[1-. conv 


conv.) Wt" save 


conv_2 





(a) 


head Si 
12 more 


(b) 





节点 сопу 1 与 节点 save 相连 ， | save 是 一 个 高 连接 度 节点 ， 因 此 我 们 将 其 作为 辅助 节点 显示 。 与 其 
而 小 的 save 节点 图 标 在 其 右边 。| 连接 的 节点 conv_1 使 用 节点 图 标 显示 在 其 左边 。 为 了 减少 杂乱 现 
象 ， 我 们 只 显示 前 5 个 连接 节点 。 








大 多 数 TensorFlow 计算 图 都 有 少数 的 节点 被 其 他 许多 节点 连接 着 。 例 如 ， 许 多 节点 都 会 
在 init 节点 上 有 一 个 控制 依赖 , 绘制 init 节点 和 其 依赖 的 所 有 边 可 能 会 使 得 视图 非常 散乱 。 为 
了 降低 这 种 散乱 情况 ， 如 表 8-2 所 示 ， 我 们 可 以 将 这 种 高 连接 度 节点 ， 分 隔 到 右边 的 辅助 区 
域 (Auxiliary Area) 并 隐藏 它们 的 边 ， 我 们 绘制 小 节点 图 标 代替 线 去 表示 其 连接 。 一 般 情况 
下 ,被 我 们 分 隔 除去 的 辅助 节点 都 不 会 带 走 关键 信息 。 为 了 帮助 你 理解 TensorFlow 中 的 图 标 ， 
在 表 8-3 中 ， 我 们 总 结 了 一 些 计算 图 中 图 标的 含义 。 


表 8-3 计算 图 图 标 含义 说 明 







含义 
| | 高 层 名 称 作用 域 的 节点 ， 双 击 后 进行 扩展 


| 一 二 | 没有 彼此 连接 的 序列 节点 


彼此 连接 的 序列 节点 


summary 节点 


操作 节点 间 的 数据 流 边 
操作 节点 间 的 控制 依赖 边 
双向 箭头 表示 向 外 流 的 操作 节点 可 以 转变 为 向 内 流 的 tensor 














° Tensor 形状 信息 


序列 化 的 GraphDef 包含 了 Tensor 形状 ， 用 Tensor 维度 标记 边 及 用 边 的 厚度 表示 
TensorFlow 的 尺寸 。 为 了 在 GraphDef 中 包含 Tensor 形状 ， 当 序列 化 计算 图 时 ，GraphDef 会 
传递 真实 的 计算 图 对 象 到 FileWriter。 如 图 8-18 所 示 ， 为 使 用 Tensor 形状 信息 的 CIFAR-10 
模型 。 
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convi ^ 
Subgraph: 23 nodes = 





Attributes (0) 

= Inputs (3) 

= ‘Puffle patchy (злите batch) 

m c: 

uay one 

oS епу 1 “{ 

= Outputs (8) 
= роо 





Remove from main graph 





FA 8-18 使 用 tensor 形状 信息 的 CIFAR-10 模型 


如 图 8-19 所 示 ， 当 启动 TensorBoard 并 进入 图 形 栏 时 ， 你 将 看 见 “Session runs” WW, 
其 对 应 于 每 一 步 运行 时 被 加 入 的 元 数据 (metadata) 。 选 择 其 中 一 个 运行 将 会 显示 该 步 数 下 的 
网 络 快照 ， 并 将 没有 使 用 的 节点 屏蔽 。 在 左边 的 控制 面板 中 ， 还 可 以 使 用 颜色 标记 节点 的 内 
存 ， 计 算 时 间 等 消耗 情况 ， 并 且 单 击 相应 的 节点 将 会 显示 精确 的 内 存 、 计 算 时 间 与 Tensor 输 
出 大 小 等 信息 。 











Attributes (1) 
deed }-=— 
回 I T (Ütype""DT. FLOAT) 
aj Fitto screen 1 = Device — /job:localhost/replica:0/task: 
X — Download PNG ч Wcpug 
< Inputs (1) 
Run train Ы layer1/Wx_plus_b/add » Е 
a) = m Outputs (6) 
| dropout/dropout/Shape мәш 
Session step999 — - TEN dropout/dropout/mul = 
runs (10) B ow | 
train/gradients/di dr t/i 
Upload AE TAA am rain/gradients/dropout/dropout/m d 
train/gradients/layer1 /activation. ог 
2 790 | 
Color O structure ш layer1/HistogramSummary "% H 
О device E p , 
Node Stats. 
@ compute time Memory 195 КВ 
Compute Time 93 us 
977 Tensor Output Sizes (100, 500] 
Ops 33 ms Remove from main graph 
unused substructure 








图 8-19 运行 元 数据 计算 图 


以 上 内 容 只 是 TensorFlow 的 冰山 一 角 , 更 多 丰富 的 资源 读者 可 以 通过 访问 TensorFlow 官 
方 网 站 http:/www.TensorFlow.org/ 进 行 学 习 。 
We can only see a short distance ahead, but we can see plenty there that needs to be done. 
一 一 Alan Mathison Turing 
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大 数据 巨 量 分 析 合 机 器 学 习 


创新 产业 。 大 量 商机 “人 才 需 求 















STY = 
LAE FUSES 











Spark 2.0+Hadoop 


=| Ce Ed 


] e Step by Step SE 
* 降低 机 器 学 习 与 





йж usa 


内 容 简介 





机 器 学 习 与 大 数据 实战 ens ° 浅显 易 懂 的 原理 介绍 
a [P 机 操作 、 范 例 程序 详细 解说 
大 数据 技术 的 学 习 门 槛 


Python+ 


Phon? Spark 2.0+Hadoop 


本 书 从 浅显 易 懂 的 “大 数据 和 机 器 学 习 ” 原 理 说 明 入 手 ， 讲 述 大 数据 和 机 器 学 习 的 











解 ， 展 示 了 如 何在 单机 Windows 系 统 上 通过 Virtual Box 虚 拟 





机 ， 如 何 建立 Hadoop 集 群 ， 再 建立 Spark 开 发 环境 。 书 中 介绍 搭建 的 上 机 实践 平 
人 台 并 不 限制 于 单 台 实体 计算 机 。 对 于 有 条 件 的 公司 和 学 校 ， 参 照 书 中 介绍 的 搭建 过 
程 ， 同 样 可 以 实现 将 自己 的 平台 搭建 在 多 台 实体 计算 机 上 “， 以 便 更 加 接近 于 大 数据 



































和 机 器 学 习 真 实 的 运行 环境 。 
本 书 非 常 适 合 于 学 习 大 数据 基础 知识 的 初学 者 阅读 ， 更 适合 
技术 的 人 员 作为 上 机 实践 用 的 教材 。 























基本 概念 ， 如 分 类 、 分 析 、 训 练 、 建 模 、 预 测 、 机 器 学 习 ( 推荐 引擎 ) 、 机 器 学 习 
( 二 元 分 类 ) 、 机 器 学 习 ( 多 元 分 类 ) 、 机 器 学 习 ( 回归 分 析 ) 和 数据 可 视 化 应 
等 。 书 中 不 仅 加 入 了 新 近 的 大 数据 技术 ,还 丰富 了 “机 器 学 习 ” 内 容 。 

为 降低 读者 学 习 大 数据 技术 的 门槛 ， 书 中 提供 了 丰富 的 上 机 实践 操作 和 范例 程序 详 

















机 安装 多 机 Linux 虚 拟 








E 在 学 习 大 数据 理论 和 


